Schlüsselkomponenten Von Databricks
Swipe um das Menü anzuzeigen
Das Databricks-Ökosystem basiert auf drei zentralen Säulen: dem Workspace (Ihr Büro), dem Cluster (Ihr Motor) und dem Notebook (Ihre interaktive Leinwand). Das Verständnis, wie diese drei Komponenten zusammenwirken, ist der Schlüssel zur Beherrschung der Plattform.
Nachdem Sie nun die Theorie hinter dem Lakehouse verstanden haben, ist es an der Zeit, die eigentlichen Werkzeuge kennenzulernen, die Sie täglich verwenden werden. Wenn Sie ein Auto bauen würden, bräuchten Sie eine Garage zum Arbeiten, einen Motor zum Antrieb und ein Armaturenbrett zur Steuerung. In Databricks übernehmen der Workspace, der Cluster und das Notebook diese Rollen. Schauen wir uns diese Komponenten einzeln an, um zu sehen, wie sie ein einheitliches Datenökosystem bilden.
Der Workspace: Ihr kollaboratives Steuerzentrum
Stellen Sie sich den Workspace als Ihr digitales Bürogebäude vor. Wenn Sie sich bei Databricks anmelden, landen Sie in dieser Umgebung. Es handelt sich um eine zentrale, cloudbasierte Oberfläche, in der sich all Ihre Ressourcen befinden – Ihre Ordner, Ihre Dateien, Ihre Bibliotheken und Ihre Sicherheitseinstellungen.
Früher arbeiteten verschiedene Teams in unterschiedlichen "Gebäuden". Die Data Engineers nutzten ein Tool, die Data Scientists ein anderes, und die Business Analysts waren oft in einer separaten Reporting-Suite isoliert. Der Databricks Workspace vereint alle unter einem Dach.
Im Workspace finden Sie folgende unmittelbare Funktionalitäten:
- Die Seitenleiste: Hauptnavigation zum Wechseln zwischen Data Science-, Engineering- und SQL-Umgebungen sowie Links zum Katalog (wo die Daten gespeichert sind) und zur Compute-Umgebung (wo Cluster eingerichtet werden);
- Der Hauptbildschirm: Hier initialisiert Databricks die jeweilige Funktionalität, mit der Sie arbeiten – vom Einrichten von Clustern über die Arbeit an Notebooks bis hin zum Durchstöbern des Katalogs, alles erscheint hier;
- Die Suchfunktion: Oben auf dem Bildschirm verfügbar, ermöglicht einen direkten Zugriff auf Ihre Arbeit, ähnlich wie auf Ihrem eigenen Laptop, jedoch für das gesamte Team zugänglich;
- Einstellungen: Hier können Sie verfügbare Optionen für Ihr Konto durchsuchen und Administratoren legen fest, wer welche Daten sehen darf, sodass sensible Informationen geschützt bleiben und dennoch Zusammenarbeit möglich ist. Alle verschiedenen Funktionalitäten von Databricks sind über die Seitenleiste zugänglich. Das gilt auch für die grundlegenden Funktionen, die in diesem Kapitel vorgestellt werden.
Der Cluster: Der Maschinenraum
Wenn der Workspace das Büro ist, dann ist der Cluster die schwere Maschinerie im Keller, die die gesamte Arbeit erledigt. Da Sie mit "Big Data" arbeiten, reicht ein einzelner Computer in der Regel nicht aus, um die Informationen zu verarbeiten.
Ein Cluster ist eine Sammlung virtueller "Server" in der Cloud, die gemeinsam als eine leistungsstarke Maschine arbeiten. Wenn Sie einen Code schreiben, um eine Milliarde Datenzeilen zu analysieren, sendet der Workspace diesen Befehl an den Cluster. Der Cluster teilt die Aufgabe in kleinere Teile auf, verarbeitet sie über mehrere "Nodes" (einzelne Computer) und sendet das Ergebnis an Sie zurück.
Wichtige Punkte zu Clustern:
- Skalierbarkeit: Sie können einen kleinen Cluster für eine schnelle Aufgabe oder einen großen für komplexes Machine Learning starten;
- Automatische Beendigung: Eine der besten Funktionen von Databricks ist, dass Sie Cluster so einstellen können, dass sie "einschlafen", wenn sie nicht genutzt werden. Das spart erhebliche Kosten, da Sie nur für die "Maschine" zahlen, wenn sie tatsächlich läuft;
- Single-Node vs. Multi-Node: Für Einsteiger empfiehlt sich ein "Single-Node"-Cluster – ein einzelner Computer –, um beim Erlernen der Grundlagen Kosten zu sparen.
Das Notebook: Deine kreative Leinwand
Schließlich gibt es das Notebook, in dem du etwa 90 % deiner Zeit verbringen wirst. Wenn du bereits Jupyter Notebooks oder Google Colab verwendet hast, wird dir dies sehr vertraut vorkommen. Falls nicht, stelle es dir als ein „intelligentes Dokument“ vor.
Ein Notebook ermöglicht es dir, drei Dinge an einem Ort zu kombinieren:
- Live-Code: Du kannst Python, SQL, R oder Scala schreiben und ausführen;
- Visualisierungen: Anstatt nur eine langweilige Zahlentabelle zu sehen, kannst du mit einem einzigen Befehl sofort Diagramme und Grafiken erzeugen;
- Dokumentation: Du kannst „Markdown“ (formatierten Text) schreiben, um zu erklären, was dein Code macht. Dadurch wird deine Arbeit auch für andere Menschen verständlich, nicht nur für Maschinen.
Die „Magie“ der Databricks-Notebooks liegt in ihrer Flexibilität. Mit sogenannten „Magic Commands“ kannst du in einer Zelle Python verwenden, um deine Daten zu bereinigen, und in der nächsten Zelle zu SQL wechseln, um sie abzufragen. Du musst dich nicht für eine Sprache entscheiden; du nutzt das beste Werkzeug für die jeweilige Aufgabe.
Wie sie zusammenarbeiten
Schauen wir uns ein praxisnahes Szenario an, um das Zusammenspiel dieser drei Komponenten zu verstehen. Stell dir vor, du bist Analyst bei einem globalen Reiseunternehmen. Du öffnest den Workspace und findest den Ordner „Monthly Sales“. In diesem Ordner erstellst du ein neues Notebook und gibst ihm einen Namen.
Dein Notebook ist jedoch nur ein Blatt Papier, bis du es mit einem Cluster „verknüpfst“. Sobald es verbunden ist, schreibst du eine SQL-Abfrage, um den durchschnittlichen Ticketpreis zu berechnen. Der Cluster empfängt deine Abfrage, startet seine Engines, verarbeitet Millionen von Verkaufsdaten aus der Cloud und zeigt direkt im Notebook ein ansprechendes Trenddiagramm an. Nach Abschluss teilst du den Link zu diesem Notebook mit deinem Vorgesetzten, und der Cluster fährt automatisch zwanzig Minuten später herunter, um Kosten zu sparen.
Das ist das Databricks-Ökosystem: ein Workspace für Zusammenarbeit, ein Cluster für Leistung und ein Notebook für Ergebnisse. Im nächsten Kapitel sehen wir, wie all dies auf verschiedenen Cloud-Anbietern wie AWS, Azure und Google Cloud funktioniert.
1. Welche Komponente ist für die eigentliche "schwere Arbeit" und Verarbeitung deiner Daten verantwortlich?
2. Was macht Databricks-Notebooks "kollaborativ"?
3. Warum ist die Funktion "Auto-Termination" bei einem Cluster wichtig?
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen