Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Імпорт Зразкових Даних для Практики | Налаштування Робочого Простору
Databricks: Основи для Початківців

Імпорт Зразкових Даних для Практики

Свайпніть щоб показати меню

Note
Визначення

Імпорт даних — це процес перенесення даних із зовнішніх джерел у середовище Databricks. За допомогою інтерфейсу імпорту даних можна перетворити необроблений файл, наприклад CSV, у структуровану таблицю у вашому Catalog лише за кілька кліків.

Ваш Workspace налаштовано, і ваш Cluster запущено. Тепер нам потрібні дані для роботи. У реальних умовах дані можуть надходити від потокових сенсорів або з великих хмарних баз даних, але більшість проєктів із даними починаються з простого файлу. У цьому розділі ви скористаєтеся сучасною функцією імпорту даних, щоб завантажити CSV-файл і перетворити його на постійну таблицю у вашому Catalog.

Note
Примітка

Існують різні способи імпорту даних у Databricks, деякі з них більш складні та розширені (наприклад, можна налаштувати власні кінцеві точки у вашому хмарному провайдері або підключитися до сторонніх застосунків). У цьому розділі ми розглядаємо найпростіший спосіб: завантаження даних із вашого комп'ютера, щоб розпочати роботу.

Доступ до інструменту завантаження даних

Є два швидких способи знайти цей інструмент:

  • Натиснути кнопку "New" у верхній частині бічної панелі та вибрати "File Upload".
  • Або перейти на вкладку Catalog і натиснути кнопку "Create Table" (зазвичай позначену знаком плюс).

Крок 2: Завантаження файлу

Після переходу до інтерфейсу завантаження можна перетягнути файл або знайти його на комп’ютері.

  • Сценарій: для цього завдання використовується прикладовий файл diamonds.csv;
  • Завантаження: після завантаження файл тимчасово зберігається у "staging"-області, поки Databricks готується перемістити його до Catalog.

Крок 3: Налаштування таблиці (Попередній перегляд)

На цьому етапі відбувається основне. Databricks покаже попередній перегляд ваших даних.

  • Catalog and Schema: потрібно вибрати, де буде зберігатися таблиця. Зараз використовується каталог workspace та схема default;
  • Table Name: вкажіть зрозумілу назву таблиці, наприклад, diamonds;
  • Data Types: перегляньте стовпці. Databricks автоматично визначає, чи є стовпець "String" (текст), "Integer" (число) або "Timestamp" (дата). Якщо визначено неправильно, тип даних можна змінити вручну безпосередньо в інтерфейсі.

Крок 4: Створення таблиці

Натисніть Create Table. Databricks запустить невелике фонове завдання (використовуючи ваш кластер) для зчитування CSV-файлу та запису його у високопродуктивну Delta Table. Після завершення ви перейдете до Table UI, де можна переглянути схему, зразки даних і навіть побачити, хто має дозвіл на перегляд.

Вітаємо! Ви успішно перемістили дані зі свого персонального комп’ютера у хмарний Lakehouse.

1. Що створює Databricks із CSV-файлу, який ви завантажуєте через Data Ingestion UI?

2. Чому крок "Preview" важливий під час процесу завантаження даних?

3. Якщо потрібно знайти нещодавно створену таблицю пізніше, яку вкладку бічної панелі слід відкрити?

question mark

Що створює Databricks із CSV-файлу, який ви завантажуєте через Data Ingestion UI?

Виберіть правильну відповідь

question mark

Чому крок "Preview" важливий під час процесу завантаження даних?

Виберіть правильну відповідь

question mark

Якщо потрібно знайти нещодавно створену таблицю пізніше, яку вкладку бічної панелі слід відкрити?

Виберіть правильну відповідь

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 6

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 2. Розділ 6
some-alt