Importieren von Beispieldaten zum Üben
Swipe um das Menü anzuzeigen
Datenaufnahme ist der Prozess, bei dem Daten aus externen Quellen in Ihre Databricks-Umgebung gebracht werden. Mit der Data Ingestion UI können Sie eine Rohdatei, wie beispielsweise eine CSV, mit nur wenigen Klicks in eine strukturierte Tabelle in Ihrem Katalog umwandeln.
Der Workspace ist eingerichtet und der Cluster läuft. Nun wird eine Arbeitsgrundlage benötigt. In der Praxis stammen Daten möglicherweise von Streaming-Sensoren oder großen Cloud-Datenbanken, aber die meisten Datenprojekte beginnen mit einer einfachen Datei. In diesem Kapitel wird die moderne Data Ingestion-Funktion verwendet, um eine CSV-Datei hochzuladen und daraus eine permanente Tabelle im Katalog zu erstellen.
Es gibt verschiedene Möglichkeiten, Daten in Databricks aufzunehmen, einige davon sind fortgeschrittener und komplexer als andere (zum Beispiel können eigene Endpunkte beim Cloud-Anbieter eingerichtet oder Verbindungen zu Drittanbieter-Anwendungen hergestellt werden). In diesem Kapitel wird die einfachste Methode behandelt: das Hochladen von Daten vom eigenen Computer, um den Einstieg zu erleichtern.
Zugriff auf die Datenaufnahme
Es gibt zwei schnelle Möglichkeiten, dieses Tool zu finden:
- Klicken Sie auf die Schaltfläche „Neu“ oben in der Seitenleiste und wählen Sie „Datei-Upload“ aus.
- Alternativ wechseln Sie zum Tab Katalog und klicken Sie auf die Schaltfläche „Tabelle erstellen“ (häufig durch ein Pluszeichen dargestellt).
Schritt 2: Datei hochladen
Sobald Sie sich in der Upload-Oberfläche befinden, können Sie Ihre Datei per Drag-and-drop ablegen oder auf Ihrem Computer durchsuchen.
- Das Szenario: Für diese Übung verwenden wir eine Beispieldatei namens
diamonds.csv; - Der Upload: Nachdem die Datei hochgeladen wurde, speichert Databricks sie vorübergehend in einem „Staging“-Bereich, während sie für die Übertragung in den Katalog vorbereitet wird.
Schritt 3: Konfiguration der Tabelle (Vorschau)
Hier findet die "Magie" statt. Databricks zeigt eine Vorschau Ihrer Daten an.
- Katalog und Schema: Auswahl des Speicherorts der Tabelle. Verwenden Sie vorerst den Katalog
workspaceund das Schemadefault; - Tabellenname: Vergabe eines aussagekräftigen Tabellennamens, zum Beispiel
diamonds; - Datentypen: Überprüfung der Spalten. Databricks erkennt automatisch, ob eine Spalte ein "String" (Text), ein "Integer" (Zahl) oder ein "Timestamp" (Datum) ist. Falls die Erkennung nicht korrekt ist, kann der Datentyp direkt in der Benutzeroberfläche angepasst werden.
Schritt 4: Erstellen der Tabelle
Klicken Sie auf Tabelle erstellen. Databricks startet nun einen kleinen Hintergrundjob (unter Verwendung Ihres Clusters), um die CSV-Datei zu lesen und sie als leistungsstarke Delta-Tabelle zu speichern. Nach Abschluss werden Sie zur Tabellen-Benutzeroberfläche weitergeleitet, wo Sie das Schema, Beispieldaten und sogar die Zugriffsberechtigungen einsehen können.
Herzlichen Glückwunsch! Sie haben erfolgreich Daten von Ihrem persönlichen Computer in das cloud-native Lakehouse übertragen.
1. Was macht Databricks aus einer CSV-Datei, die Sie über die Data Ingestion UI hochladen?
2. Warum ist der Schritt "Vorschau" während des Datenimportprozesses wichtig?
3. Wenn Sie Ihre neu erstellte Tabelle später wiederfinden möchten, welche Seitenleisten-Registerkarte sollten Sie auswählen?
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen