Імпорт Зразкових Даних для Практики
Свайпніть щоб показати меню
Імпорт даних — це процес перенесення даних із зовнішніх джерел у середовище Databricks. За допомогою інтерфейсу імпорту даних можна перетворити необроблений файл, наприклад CSV, у структуровану таблицю у вашому Catalog лише за кілька кліків.
Ваш Workspace налаштовано, і ваш Cluster запущено. Тепер нам потрібні дані для роботи. У реальних умовах дані можуть надходити від потокових сенсорів або з великих хмарних баз даних, але більшість проєктів із даними починаються з простого файлу. У цьому розділі ви скористаєтеся сучасною функцією імпорту даних, щоб завантажити CSV-файл і перетворити його на постійну таблицю у вашому Catalog.
Існують різні способи імпорту даних у Databricks, деякі з них більш складні та розширені (наприклад, можна налаштувати власні кінцеві точки у вашому хмарному провайдері або підключитися до сторонніх застосунків). У цьому розділі ми розглядаємо найпростіший спосіб: завантаження даних із вашого комп'ютера, щоб розпочати роботу.
Доступ до інструменту завантаження даних
Є два швидких способи знайти цей інструмент:
- Натиснути кнопку "New" у верхній частині бічної панелі та вибрати "File Upload".
- Або перейти на вкладку Catalog і натиснути кнопку "Create Table" (зазвичай позначену знаком плюс).
Крок 2: Завантаження файлу
Після переходу до інтерфейсу завантаження можна перетягнути файл або знайти його на комп’ютері.
- Сценарій: для цього завдання використовується прикладовий файл
diamonds.csv; - Завантаження: після завантаження файл тимчасово зберігається у "staging"-області, поки Databricks готується перемістити його до Catalog.
Крок 3: Налаштування таблиці (Попередній перегляд)
На цьому етапі відбувається основне. Databricks покаже попередній перегляд ваших даних.
- Catalog and Schema: потрібно вибрати, де буде зберігатися таблиця. Зараз використовується каталог
workspaceта схемаdefault; - Table Name: вкажіть зрозумілу назву таблиці, наприклад,
diamonds; - Data Types: перегляньте стовпці. Databricks автоматично визначає, чи є стовпець "String" (текст), "Integer" (число) або "Timestamp" (дата). Якщо визначено неправильно, тип даних можна змінити вручну безпосередньо в інтерфейсі.
Крок 4: Створення таблиці
Натисніть Create Table. Databricks запустить невелике фонове завдання (використовуючи ваш кластер) для зчитування CSV-файлу та запису його у високопродуктивну Delta Table. Після завершення ви перейдете до Table UI, де можна переглянути схему, зразки даних і навіть побачити, хто має дозвіл на перегляд.
Вітаємо! Ви успішно перемістили дані зі свого персонального комп’ютера у хмарний Lakehouse.
1. Що створює Databricks із CSV-файлу, який ви завантажуєте через Data Ingestion UI?
2. Чому крок "Preview" важливий під час процесу завантаження даних?
3. Якщо потрібно знайти нещодавно створену таблицю пізніше, яку вкладку бічної панелі слід відкрити?
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат