Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Databricks in der Cloud (AWS, Azure, GCP) | Databricks-Grundlagen
Databricks-Grundlagen: Ein Leitfaden für Einsteiger

Databricks in der Cloud (AWS, Azure, GCP)

Swipe um das Menü anzuzeigen

Note
Definition

Databricks ist eine "Cloud-native" Plattform, was bedeutet, dass sie vollständig innerhalb der Infrastruktur führender Cloud-Anbieter wie Amazon Web Services (AWS), Microsoft Azure und Google Cloud Platform (GCP) betrieben wird.

Eine der häufigsten Fragen von Einsteigern lautet: "Wo genau befindet sich Databricks?" Ist es eine Software, die ich auf meinem Laptop installiere? Ist es eine Website? Die Antwort ist, dass Databricks eine Cloud-native Plattform ist. Sie existiert nicht auf einem physischen Server in Ihrem Büro; sie befindet sich vollständig innerhalb der riesigen Infrastrukturen der weltweit größten Cloud-Anbieter: AWS, Azure und Google Cloud.

Der "Agnostische" Vorteil

Traditionell bedeutete das Erlernen eines Data-Tools, dass man an ein bestimmtes Ökosystem gebunden war. Wenn man ein Tool auf AWS gelernt hat, konnte es auf Azure ganz anders aussehen und sich anders anfühlen. Databricks ist einzigartig, weil es "cloud-agnostisch" ist. Unabhängig davon, ob Ihr Unternehmen die blaue Oberfläche von Azure, das Orange von AWS oder die bunten Symbole von Google verwendet, bleibt das Databricks-Erlebnis nahezu identisch.

Dies ist ein großer Vorteil für Ihre Karriere. Wenn Sie in diesem Kurs lernen, wie man Cluster verwaltet und Notebooks schreibt, sind diese Fähigkeiten zu 100 % übertragbar. Sie lernen eine universelle Datensprache, die unabhängig vom bevorzugten Cloud-Anbieter eines Unternehmens funktioniert.

Wie Databricks in die Cloud integriert wird

Stellen Sie sich einen Cloud-Anbieter – wie AWS – als ein großes Versorgungsunternehmen vor, das eine ganze Stadt mit Strom und Wasser versorgt. Databricks ist wie ein hochwertiges, intelligentes Zuhause, das sich an diese Versorgungsleitungen anschließt, um beeindruckende Aufgaben zu erfüllen. Es nutzt die Cloud für drei Hauptbereiche:

  • Speicherung: Wenn Daten in Databricks gespeichert werden, liegen sie tatsächlich im kostengünstigen, dauerhaften Speicher des Cloud-Anbieters, wie einem AWS S3-Bucket oder Azure Data Lake Storage.
  • Rechenleistung: Beim Starten eines Clusters fordert Databricks beim Cloud-Anbieter im Prinzip an: „Leihe mir vier virtuelle Server für eine Stunde, um diese Berechnung durchzuführen“.
  • Sicherheit: Es nutzt die integrierte Unternehmenssicherheit der Cloud, um sicherzustellen, dass nur autorisierte Nutzer Zugriff auf den Workspace erhalten.

Warum nicht einfach die eigenen Tools des Cloud-Anbieters nutzen?

Vielleicht fragen Sie sich: „Wenn ich schon auf Azure bin, warum nicht einfach die integrierten Tools von Azure verwenden?“ Hier zeigt sich die Effizienz und Einfachheit von Databricks. Während Cloud-Anbieter eigene Einzeldienste anbieten, sind diese oft fragmentiert. Für die Datenbereinigung wird ein Tool benötigt, für Machine Learning ein anderes und für SQL-Reporting ein drittes.

Databricks fungiert als einheitliche Schicht. Es sitzt über all diesen komplexen Cloud-Diensten und bietet eine einzige, übersichtliche Oberfläche zur Verwaltung. Es übernimmt die „Installation“ – das Netzwerk, die Servereinrichtung und die Software-Updates – sodass der Fokus vollständig auf den Daten liegen kann.

Globale Skalierung

Da Databricks auf diesen Clouds betrieben wird, profitiert es von deren globaler Präsenz. Wenn ein Unternehmen Kunden in Europa und Asien hat, kann der Databricks-Workspace gezielt in diesen Regionen eingerichtet werden. Dadurch befinden sich die „Cluster“ physisch nah an den Daten, was Abfragen deutlich beschleunigt und gleichzeitig die Einhaltung lokaler Datenschutzgesetze unterstützt.

Kurz gesagt: Die Cloud bildet das Fundament, aber Databricks ist das Werkzeug, das dieses Fundament für Datenprofis nutzbar macht.

1. Was bedeutet es, dass Databricks "cloud-agnostisch" ist?

2. Wo werden Ihre Daten tatsächlich gespeichert, wenn Sie Databricks verwenden?

3. Warum bevorzugen Unternehmen die Nutzung von Databricks gegenüber mehreren fragmentierten Cloud-Tools?

question mark

Was bedeutet es, dass Databricks "cloud-agnostisch" ist?

Wählen Sie die richtige Antwort aus

question mark

Wo werden Ihre Daten tatsächlich gespeichert, wenn Sie Databricks verwenden?

Wählen Sie die richtige Antwort aus

question mark

Warum bevorzugen Unternehmen die Nutzung von Databricks gegenüber mehreren fragmentierten Cloud-Tools?

Wählen Sie die richtige Antwort aus

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 4

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 1. Kapitel 4
some-alt