Resultaten Weergeven en Visualiseren
Veeg om het menu te tonen
De display()-functie is een ingebouwd Databricks-commando dat wordt gebruikt om gegevens weer te geven in een interactieve, tabelvormige of grafische weergave. Hiermee kunnen gebruikers datasets verkennen en visuele grafieken maken direct binnen een notebook, zonder externe bibliotheken nodig te hebben.
In Databricks toont het uitvoeren van een variabelenaam of een query ruwe gegevens. Om deze gegevens leesbaar en "presentatieklaar" te maken, gebruiken we echter het display()-commando. Dit is de primaire methode om ruwe cijfers om te zetten in visuele inzichten.
De kracht van display()
Bij het werken met Python ben je misschien gewend om print() te gebruiken. Hoewel print() geschikt is voor tekst, is het niet ideaal voor grote datasets. Door display(your_dataframe) te gebruiken, toont Databricks de gegevens als een interactieve tabel.
Je kunt door duizenden rijen scrollen. Je kunt op kolomkoppen klikken om gegevens oplopend of aflopend te sorteren. Je kunt de ingebouwde zoekbalk binnen de resultaten gebruiken om direct specifieke waarden te vinden:
- Je kunt door duizenden rijen scrollen;
- Je kunt op kolomkoppen klikken om gegevens oplopend of aflopend te sorteren;
- Je kunt de ingebouwde zoekbalk binnen de resultaten gebruiken om direct specifieke waarden te vinden.
Automatisch grafieken maken
Zodra je een cel hebt uitgevoerd met display() of een SQL-query hebt uitgevoerd, verschijnt er een resultaatentabel. Direct onder deze tabel zie je een "+"-icoon. Door hierop te klikken kun je "Visualisatie" selecteren.
- Hiermee wordt de Visualisatie-editor geopend;
- Je kunt kiezen uit verschillende grafiektypen: staaf, lijn, gebied, cirkel, spreiding en meer;
- Je sleept eenvoudig de kolommen die je wilt gebruiken voor je X-as en Y-as. Databricks verzorgt automatisch de aggregatie (zoals het optellen of middelen van de waarden).
Visualisaties aanpassen
De Visualisatie-editor is ontworpen voor snelheid. Mogelijkheden:
- Kleuren wijzigen: specifieke kleuren toewijzen aan verschillende dataseries;
- Assen labelen: aangepaste titels toevoegen aan de horizontale en verticale assen;
- Gegevens groeperen: het veld "Groeperen op" gebruiken om een enkele lijngrafiek op te splitsen in meerdere lijnen op basis van een categorie, zoals "Region" of "Product Type."
Visualisaties toevoegen aan het notebook
Na het opslaan van een visualisatie verschijnt deze als een apart tabblad naast de datatabel. Meerdere visualisaties zijn mogelijk voor dezelfde cel. Bijvoorbeeld: één tabblad toont de ruwe sales data, het tweede een staafdiagram van sales per region, en het derde een cirkeldiagram van productverdeling. Dit houdt het notebook overzichtelijk en stelt belanghebbenden in staat het "verhaal" achter de data te zien zonder naar de onderliggende code te kijken.
Gegevensprofilering
Naast grafieken biedt Databricks een "Data Profile" tabblad in het resultatengebied. Door hierop te klikken verschijnt direct een statistisch overzicht van de gegevens, met de verdeling van waarden, aantal ontbrekende waarden en minimum/maximum bereik voor elke kolom. Dit is een essentiële stap voor het opschonen van data voordat een diepgaandere analyse wordt gestart.
1. Wat is het belangrijkste voordeel van het gebruik van display() in plaats van print() voor een dataset?
2. Waar klik je om te beginnen met het maken van een grafiek van je queryresultaten?
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.