Ключові Компоненти Databricks
Свайпніть щоб показати меню
Екосистема Databricks побудована на трьох основних стовпах: Workspace (ваш офіс), Cluster (ваш рушій) та Notebook (ваше інтерактивне полотно). Розуміння взаємодії цих трьох компонентів є ключем до опанування платформи.
Тепер, коли ви розумієте теорію Lakehouse, настав час ознайомитися з реальними інструментами, які ви будете використовувати щодня. Якщо б ви будували автомобіль, вам би знадобився гараж для роботи, двигун для руху та панель приладів для керування. У Databricks ці ролі виконують Workspace, Cluster та Notebook. Розглянемо їх по черзі, щоб побачити, як вони формують єдину екосистему даних.
Workspace: Центр спільної роботи
Уявіть Workspace як вашу цифрову офісну будівлю. Коли ви входите в Databricks, саме в цьому середовищі ви опиняєтеся. Це централізований, хмарний інтерфейс, де зберігаються всі ваші ресурси — папки, файли, бібліотеки та налаштування безпеки.
У «старі часи» різні команди працювали в різних «будівлях». Інженери даних використовували один інструмент, дата-сайентисти — інший, а бізнес-аналітики часто були відокремлені у власному звітувальному середовищі. Workspace Databricks об'єднує всіх під одним дахом.
У Workspace доступні такі основні функціональні можливості:
- Бічна панель: основний інструмент навігації для перемикання між середовищами data science, інженерії та SQL, а також посилання на Catalog (де зберігаються дані) і Compute (де налаштовуються кластери);
- Головний екран: місце, де Databricks ініціалізує будь-яку функцію, з якою ви працюєте — від налаштування кластерів до роботи з Notebooks і перегляду Catalog, усе відображається тут;
- Пошук: доступний у верхній частині екрана, дозволяє швидко знаходити вашу роботу, як на власному ноутбуці, але з доступом для всієї команди;
- Налаштування: тут можна переглядати доступні параметри облікового запису, а адміністратори визначають, хто бачить які дані, забезпечуючи захист конфіденційної інформації та можливість співпраці. Усі функції Databricks доступні через бічну панель. Це стосується й базових можливостей, які розглядаються в цьому розділі.
Кластер: Серце обробки даних
Якщо Workspace — це офіс, то кластер — це потужне обладнання в підвалі, яке виконує всю роботу. Оскільки ви працюєте з "Big Data", одного комп’ютера зазвичай недостатньо для обробки інформації.
Кластер — це сукупність віртуальних "серверів" у хмарі, які працюють разом як єдина потужна машина. Коли ви пишете код для аналізу мільярда рядків даних, Workspace надсилає цю команду кластеру. Кластер розбиває завдання на менші частини, обробляє їх на декількох "вузлах" (окремих комп’ютерах) і повертає результат.
Основні особливості кластерів:
- Масштабованість: можна запускати невеликий кластер для швидких завдань або великий — для складного машинного навчання;
- Автоматичне завершення роботи: одна з найкращих функцій Databricks — можливість налаштувати кластери так, щоб вони "засинали", коли не використовуються. Це суттєво економить кошти, оскільки ви платите за "двигун" лише під час його роботи;
- Один вузол проти багатьох: для початківців рекомендується використовувати кластер з одним вузлом — один комп’ютер — щоб заощадити кошти під час вивчення основ.
Ноутбук: Ваш творчий майданчик
І нарешті, Ноутбук — це місце, де ви проведете 90% свого часу. Якщо ви вже користувалися Jupyter Notebooks або Google Colab, це буде дуже знайомо. Якщо ні, уявіть це як «розумний документ».
Ноутбук дозволяє об'єднати три речі в одному місці:
- Живий код: ви можете писати та виконувати Python, SQL, R або Scala;
- Візуалізації: замість нудної таблиці чисел ви можете миттєво створювати діаграми та графіки однією командою;
- Документація: ви можете писати «Markdown» (форматований текст), щоб пояснити, що робить ваш код. Це робить вашу роботу зрозумілою для інших людей, а не лише для машин.
«Магія» ноутбуків Databricks — у їхній гнучкості. Використовуючи так звані «магічні команди», ви можете написати Python в одній клітинці для очищення даних, а потім у наступній клітинці перейти до SQL для виконання запиту. Вам не потрібно обирати одну мову; ви використовуєте найкращий інструмент для конкретного завдання.
Як вони працюють разом
Розглянемо реальний сценарій, щоб побачити взаємодію цих трьох компонентів. Уявіть, що ви аналітик у глобальній туристичній компанії. Ви відкриваєте Workspace, щоб знайти папку "Monthly Sales". Ви створюєте новий Ноутбук у цій папці та даєте йому назву.
Однак ваш ноутбук — це лише аркуш паперу, поки ви не «прикріпите» його до Cluster. Після підключення ви пишете SQL-запит для обчислення середньої ціни квитка. Кластер отримує ваш запит, запускає свої ресурси, обробляє мільйони рядків даних про продажі з хмари та відображає красивий графік тренду прямо у вашому ноутбуці. Коли ви закінчуєте, ви ділитеся посиланням на цей ноутбук із вашим менеджером, а кластер автоматично вимикається через двадцять хвилин, щоб зекономити кошти компанії.
Ось так виглядає екосистема Databricks: workspace для співпраці, cluster для потужності та notebook для результатів. У наступному розділі ми побачимо, як усе це працює на різних хмарних платформах, таких як AWS, Azure та Google Cloud.
1. Який компонент відповідає за фактичне «важке підняття» та обробку ваших даних?
2. Що робить блокноти Databricks «спільними»?
3. Чому функція «Автоматичне завершення роботи» на кластері є важливою?
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат