Schreiben und Ausführen von SQL-Code
Swipe um das Menü anzuzeigen
SQL (Structured Query Language) ist die branchenübliche Sprache zur Interaktion mit relationalen Datenbanken. In Databricks wird SQL verwendet, um Tabellen im Lakehouse abzufragen, Visualisierungen zu erstellen und Datenanalysen innerhalb von Notebooks durchzuführen.
Obwohl Python für Data Engineering leistungsstark ist, bleibt SQL die beliebteste Sprache für Datenanalysen. Databricks behandelt SQL als erstklassige Sprache. Selbst wenn die Standardsprache deines Notebooks auf Python eingestellt ist, kannst du problemlos zu SQL wechseln, um schnelle Datenabfragen oder komplexe Joins durchzuführen.
Verwendung von SQL in einem SQL-Notebook
Wenn das Notebook mit SQL als Standardsprache erstellt wurde, ist jede neue Zelle automatisch eine SQL-Zelle. Du gibst einfach deine Abfrage ein – zum Beispiel SELECT * FROM table_name – und führst sie aus. Die Ausgabe wird in einem übersichtlichen, interaktiven Tabellenformat angezeigt, in dem Spalten sortiert oder nach bestimmten Werten gesucht werden kann, ohne zusätzlichen Code zu schreiben.
Der "Magic"-Befehl: %sql
In einem Python-Notebook ist es nicht notwendig, eine komplett neue Datei zu erstellen, nur um eine SQL-Abfrage auszuführen. Databricks verwendet sogenannte "Magic Commands", um die Programmiersprache im laufenden Betrieb zu wechseln. Durch das Eingeben von %sql ganz am Anfang einer Zelle wird dem Cluster mitgeteilt, Python zu ignorieren und genau diese Zelle als SQL-Code auszuführen.
%sql
SELECT "Hello from the SQL engine" AS message
Abfragen der Beispieldaten
In Abschnitt 2 haben wir eine Datei mit dem Namen diamonds hochgeladen. Jetzt können wir sie direkt abfragen. In einer SQL-Zelle kann folgender Code ausprobiert werden:
SELECT
carat,
cut,
price
FROM
workspace.default.diamonds
LIMIT 10
Beachte die Namenskonvention: catalog.schema.table. Dieser dreiteilige Name stellt sicher, dass die richtigen Daten aus dem zuvor behandelten Katalog abgerufen werden.
Interaktive Ergebnisse und Visualisierungen
Nach dem Ausführen einer SQL-Zelle stellt Databricks einen interaktiven Ergebnissatz bereit. Unterhalb der Ergebnistabelle erscheint ein „+“-Symbol, gefolgt von „Visualisierung“. Damit lassen sich die SQL-Ergebnisse sofort in Balkendiagramme, Liniendiagramme oder Kreisdiagramme umwandeln. Im Gegensatz zu traditionellen SQL-Umgebungen, in denen Daten für Diagramme oft nach Excel exportiert werden müssen, ermöglicht Databricks die Analyse und Visualisierung direkt an einem Ort.
Formatierung von SQL zur besseren Lesbarkeit
SQL kann mit zunehmender Komplexität von Abfragen schwer lesbar werden. Databricks bietet einen integrierten SQL-Formatter. Dieser befindet sich in der Zellwerkzeugleiste (häufig durch ein kleines „Zauberstab“-Symbol oder im Menü „Bearbeiten“ dargestellt). Durch Anklicken werden Schlüsselwörter automatisch eingerückt und Spalten ausgerichtet, wodurch der Code für Teammitglieder im Workspace leichter überprüfbar wird.
1. Wenn Sie sich in einem Python-Notebook befinden und eine SQL-Abfrage in einer einzelnen Zelle schreiben möchten, welchen "Magic Command" müssen Sie am Anfang eingeben?
2. Wie verweist man in Databricks mit der dreiteiligen Namenskonvention korrekt auf eine Tabelle?
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen