Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Erstellung Ihrer Ersten Compute-Ressource | Arbeitsbereich Einrichten
Databricks-Grundlagen: Ein Leitfaden für Einsteiger

Erstellung Ihrer Ersten Compute-Ressource

Swipe um das Menü anzuzeigen

Note
Definition

Das Erstellen einer Compute-Ressource (Cluster) bedeutet, virtuelle Hardware in der Cloud bereitzustellen, um Datenausführungen durchzuführen. Zu Lernzwecken verwenden wir eine Single Node-Konfiguration, um Leistung und Kosten auszubalancieren.

Jetzt wird der "Motor" eingeschaltet. In diesem Kapitel werden die genauen Schritte zur Erstellung deines ersten Clusters beschrieben. Diese Ressource ermöglicht das Ausführen von SQL- und Python-Code, den du später im Kurs schreiben wirst. Befolge diese Schritte sorgfältig, um sicherzustellen, dass deine Umgebung korrekt und kosteneffizient eingerichtet ist.

Note
Hinweis

Databricks ermöglicht die Erstellung spezialisierterer Cluster, wie zum Beispiel job compute, das besser für Workflows geeignet ist. Obwohl dieses Kapitel die Grundlagen behandelt und daher die Erstellung eines all-purpose cluster behandelt wird, gelten die beschriebenen Schritte auch für die Erstellung und Verwaltung anderer Cluster-Kategorien.

Schritt 1: Zugriff auf das Compute-Menü

Klicken Sie in der linken Seitenleiste auf das Compute-Symbol. Dadurch gelangen Sie zur Übersicht der Compute-Ressourcen. Klicken Sie oben rechts auf die blaue Schaltfläche mit der Aufschrift Create Compute.

Schritt 2: Auswahl des Clustertyps

Oben werden zwei Hauptoptionen angezeigt: Multi Node und Single Node.

  • Single Node auswählen. Warum? Multi-Node-Cluster sind für große bis sehr große, unternehmensweite Datenmengen vorgesehen. Für Lernzwecke ist ein Single Node Cluster wesentlich kostengünstiger (oder in einigen Editionen sogar kostenlos) und bietet ausreichend Leistung für die Datensätze, die wir verwenden werden.

Schritt 3: Benennung und Laufzeit

  • Name: Vergabe eines eindeutigen Namens für den Cluster, zum Beispiel Student_Cluster_1;
  • Databricks Runtime Version: Dieses Dropdown-Menü bestimmt die Version der "Engine". Wählen Sie die neueste Version mit dem Zusatz LTS. LTS steht für "Long Term Support". Dies ist die stabilste Version und wird von den meisten Unternehmen für reale Projekte verwendet.

Schritt 4: Konfiguration der "Hardware"

Unter Node Type erscheint eine Liste von Cloud-VMs (wie Standard_DS3_v2 auf Azure oder i3.xlarge auf AWS).

  • Für diesen Kurs ist die Standardauswahl in der Regel ausreichend;
  • Mindestens 15GB Arbeitsspeicher werden empfohlen, falls später fortgeschrittene Data-Science-Aufgaben geplant sind. Für grundlegende SQL- und Python-Anwendungen reicht meist die kleinste verfügbare Option aus.

Schritt 5: Der wichtigste Schritt – Automatische Beendigung

Suche nach dem Kontrollkästchen mit der Bezeichnung „Nach ___ Minuten Inaktivität beenden.“

  • Setze diesen Wert auf 20 Minuten;
  • Wie im vorherigen Kapitel besprochen, dient dies als Sicherheitsnetz. Wenn die Arbeit beendet und der Laptop geschlossen wird, aber das Cluster nicht ausgeschaltet wurde, erkennt Databricks, dass kein Code ausgeführt wird, und fährt die „Engine“ nach 20 Minuten automatisch herunter, um die Abrechnung zu stoppen.

Schritt 6: Erstellen und Warten

Klicke auf Compute erstellen. Neben dem Clusternamen erscheint ein sich drehender, ausgefüllter Kreis. Es dauert in der Regel 3 bis 5 Minuten, bis der Cloud-Anbieter die Server „aufgewärmt“ hat. Sobald der Kreis zu einem grünen Häkchen oder einem grünen „Running“-Status wird, ist die Engine einsatzbereit!

1. Wie gelangt man korrekt zum Menü zur Erstellung einer neuen Compute-Ressource (Cluster) in Databricks?

2. Warum sollte beim Einrichten Ihres ersten Databricks-Clusters für diesen Kurs ein Single Node-Cluster einem Multi Node-Cluster vorgezogen werden?

question mark

Wie gelangt man korrekt zum Menü zur Erstellung einer neuen Compute-Ressource (Cluster) in Databricks?

Wählen Sie die richtige Antwort aus

question mark

Warum sollte beim Einrichten Ihres ersten Databricks-Clusters für diesen Kurs ein Single Node-Cluster einem Multi Node-Cluster vorgezogen werden?

Wählen Sie die richtige Antwort aus

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 3

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 2. Kapitel 3
some-alt