Anzeigen und Visualisieren von Ergebnissen
Swipe um das Menü anzuzeigen
Die Funktion display() ist ein integrierter Databricks-Befehl, der verwendet wird, um Daten in einem interaktiven, tabellarischen oder grafischen Format darzustellen. Sie ermöglicht es Nutzern, Datensätze zu erkunden und visuelle Diagramme direkt im Notebook zu erstellen, ohne externe Bibliotheken zu benötigen.
In Databricks zeigt das Ausführen eines Variablennamens oder einer Abfrage die Rohdaten an. Um diese Daten jedoch lesbar und „präsentationsfertig“ zu machen, verwenden wir den Befehl display(). Dies ist die Hauptmethode, um Rohdaten in visuelle Erkenntnisse umzuwandeln.
Die Leistungsfähigkeit von display()
Bei der Arbeit mit Python sind Sie möglicherweise an die Verwendung von print() gewöhnt. Während print() für Text geeignet ist, ist es für große Datensätze nicht ideal. Mit display(your_dataframe) stellt Databricks die Daten als interaktive Tabelle dar.
Sie können durch Tausende von Zeilen scrollen. Sie können auf die Spaltenüberschriften klicken, um die Daten auf- oder absteigend zu sortieren. Sie können die integrierte Suchleiste innerhalb der Ergebnisse verwenden, um bestimmte Werte sofort zu finden:
- Sie können durch Tausende von Zeilen scrollen;
- Sie können auf die Spaltenüberschriften klicken, um die Daten auf- oder absteigend zu sortieren;
- Sie können die integrierte Suchleiste innerhalb der Ergebnisse verwenden, um bestimmte Werte sofort zu finden.
Automatische Diagramme erstellen
Nachdem Sie eine Zelle mit display() ausgeführt oder eine SQL-Abfrage gestartet haben, erscheint eine Ergebnistabelle. Direkt unter dieser Tabelle sehen Sie ein "+"-Symbol. Wenn Sie darauf klicken, können Sie "Visualisierung" auswählen.
- Dadurch wird der Visualisierungseditor geöffnet;
- Sie können aus verschiedenen Diagrammtypen wählen: Balken, Linie, Fläche, Kreis, Punkt und weitere;
- Sie ziehen einfach die gewünschten Spalten für Ihre X-Achse und Y-Achse per Drag-and-drop. Databricks übernimmt die Aggregation (wie Summieren oder Mittelwertbildung der Werte) automatisch.
Anpassen der Visualisierungen
Der Visualisierungseditor ist auf Geschwindigkeit ausgelegt. Sie können:
- Farben ändern: bestimmten Datenreihen spezifische Farben zuweisen;
- Achsen beschriften: benutzerdefinierte Titel für Ihre horizontale und vertikale Achse hinzufügen;
- Daten gruppieren: das Feld "Gruppieren nach" verwenden, um ein Liniendiagramm anhand einer Kategorie wie "Region" oder "Produkttyp" in mehrere Linien aufzuteilen.
Hinzufügen von Visualisierungen zum Notebook
Sobald Sie Ihre Visualisierung speichern, erscheint sie als separater Tab neben Ihrer Datentabelle. Sie können mehrere Visualisierungen für dieselbe Zelle haben. Zum Beispiel kann ein Tab die Rohverkaufsdaten anzeigen, der zweite ein Balkendiagramm der Verkäufe nach Region und der dritte ein Kreisdiagramm der Produktverteilung. Dies hält Ihr Notebook übersichtlich und ermöglicht es Stakeholdern, die "Geschichte" hinter den Daten zu sehen, ohne den zugrunde liegenden Code betrachten zu müssen.
Datenprofilierung
Zusätzlich zu Diagrammen bietet Databricks einen "Datenprofil"-Tab im Ergebnisbereich. Ein Klick darauf liefert eine sofortige statistische Zusammenfassung Ihrer Daten, zeigt die Verteilung der Werte, fehlende Werte sowie Min-/Max-Bereiche für jede Spalte an. Dies ist ein wichtiger Schritt zur Datenbereinigung, bevor Sie mit einer tiefergehenden Analyse beginnen.
1. Was ist der Hauptvorteil der Verwendung von display() anstelle von print() für einen Datensatz?
2. Wo klicken Sie, um mit der Erstellung eines Diagramms aus Ihren Abfrageergebnissen zu beginnen?
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen