Керування Файлами у Робочому Просторі
Свайпніть щоб показати меню
У Databricks існує чітке розмежування між файлами робочого простору (ваші блокноти та код) і об'єктами даних (ваші таблиці та сирі файли). Каталог — це сучасний інструмент для керування та пошуку цих об'єктів даних.
Одне з перших понять, яке потрібно засвоїти — у Databricks є "дві сторони". Одна сторона призначена для вашої роботи — скриптів і блокнотів. Інша — для фактичних даних, які ви аналізуєте. Розуміння, де що зберігається, допоможе уникнути багатьох труднощів під час написання коду.
Файли робочого простору: місце для вашого коду
Коли ви натискаєте на вкладку Workspace у бічній панелі, ви бачите файлову систему для вашої логіки.
- Тут ви створюєте папки, підпапки та блокноти.
- Також можна зберігати не-блокнотні файли, наприклад, невеликі Python-скрипти або файли залежностей.
- Важливо: це не "data tables". Не зберігайте тут 100GB CSV-файли. Ця область призначена для вашої інтелектуальної власності — коду, який визначає дії Databricks.
Каталог: місце зберігання ваших даних
Щоб переглянути свої дані, перейдіть на вкладку Catalog. Раніше Databricks значною мірою використовував так звану DBFS (Databricks File System). Хоча ви все ще можете зустріти посилання на DBFS у старішій документації, зараз це вважається застарілим підходом.
Сьогодні використовується Catalog (на базі Unity Catalog). Це забезпечує структурований, «SQL-подібний» спосіб перегляду ваших даних:
- Unity Catalogs: логічне групування (наприклад, production_data або marketing_data) схем;
- Schemas (або Databases): спосіб організації таблиць у каталозі, а також Volumes (див. нижче), ML-моделей і функцій;
- Tables: фактичні рядки та стовпці, які ви будете запитувати.
Томів: робота з необробленими файлами
Іноді у вас є дані, які ще не є таблицею — наприклад, необроблений CSV або файл зображення. У сучасному інтерфейсі Databricks ці файли зберігаються у Томах. Уявіть том як міст між старим підходом «папок» і новим, безпечним підходом «Каталогу». Ви можете переглядати ці томи безпосередньо в інтерфейсі Каталогу, щоб побачити свої необроблені файли до їх завантаження в таблиці.
Чому це розділення важливе?
Все зводиться до безпеки та продуктивності. Зберігаючи код у Workspace, а дані у Catalog, Databricks дозволяє адміністраторам надати користувачу дозвіл на редагування ноутбука без обов'язкового доступу до конфіденційних даних у таблиці. Таке «розділення відповідальностей» робить Databricks платформою корпоративного рівня.
1. Якщо ви хочете створити нову папку для організації своїх Python-ноутбуків, яку вкладку бічної панелі слід використовувати?
2. Який сучасний, рекомендований спосіб керування та пошуку таблиць даних у Databricks?
3. Який застарілий термін можна зустріти в старішій документації Databricks, який зараз замінюється Каталогом і Томами?
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат