Visning og Visualisering af Resultater
Stryg for at vise menuen
Funktionen display() er en indbygget Databricks-kommando, der bruges til at vise data i et interaktivt, tabelformat eller grafisk format. Den gør det muligt for brugere at udforske datasæt og oprette visuelle diagrammer direkte i en notebook uden behov for eksterne biblioteker.
I Databricks vil du ved blot at køre et variabelnavn eller en forespørgsel se rå data. For at gøre disse data læsbare og "præsentationsklare" bruger vi dog kommandoen display(). Dette er den primære metode til at omdanne rå tal til visuelle indsigter.
display()'s styrke
Når du arbejder med Python, er du måske vant til at bruge print(). Selvom print() fungerer til tekst, er det ikke ideelt til store datasæt. Ved at bruge display(your_dataframe) gengiver Databricks dataene som en interaktiv tabel.
Du kan rulle gennem tusindvis af rækker. Du kan klikke på kolonneoverskrifter for at sortere data i stigende eller faldende rækkefølge. Du kan bruge den indbyggede søgelinje i resultaterne til hurtigt at finde specifikke værdier:
- Du kan rulle gennem tusindvis af rækker;
- Du kan klikke på kolonneoverskrifter for at sortere data i stigende eller faldende rækkefølge;
- Du kan bruge den indbyggede søgelinje i resultaterne til hurtigt at finde specifikke værdier.
Oprettelse af automatiske diagrammer
Når du har kørt en celle med display() eller udført en SQL-forespørgsel, vises en resultattabel. Lige under denne tabel ser du et "+"-ikon. Ved at klikke på dette kan du vælge "Visualisering".
- Dette åbner Visualiseringseditoren;
- Du kan vælge mellem forskellige diagramtyper: Søjle, Linje, Område, Lagkage, Punktdiagram og flere;
- Du skal blot trække og slippe de kolonner, du ønsker til din X-akse og Y-akse. Databricks håndterer automatisk aggregeringen (som at summere eller beregne gennemsnit af værdierne).
Tilpasning af visualiseringer
Visualiseringseditoren er designet til hurtighed. Du kan:
- Ændre farver: tildele specifikke farver til forskellige dataserier;
- Navngive akser: tilføje brugerdefinerede titler til dine horisontale og vertikale akser;
- Gruppere data: bruge feltet "Group by" til at opdele et enkelt linjediagram i flere linjer baseret på en kategori, såsom "Region" eller "Produkttype."
Tilføjelse af visualiseringer til notebooken
Når du gemmer din visualisering, vises den som en separat fane ved siden af din datatabel. Du kan have flere visualiseringer for den samme celle. For eksempel kan én fane vise de rå salgsdata, den anden kan vise et søjlediagram over salg efter region, og den tredje kan vise et cirkeldiagram over produktfordeling. Dette holder din notebook organiseret og gør det muligt for interessenter at se "historien" bag dataene uden at skulle kigge på den underliggende kode.
Dataprofilering
Ud over diagrammer tilbyder Databricks en "Data Profile"-fane i resultatområdet. Når du klikker på denne, får du et øjeblikkeligt statistisk overblik over dine data, der viser fordelingen af værdier, antal manglende værdier og min/max-intervaller for hver kolonne. Dette er et vigtigt skridt i datarensning, før du påbegynder en dybere analyse.
1. Hvad er den primære fordel ved at bruge display() i stedet for print() til et datasæt?
2. Hvor klikker du for at begynde at oprette et diagram ud fra dine forespørgselsresultater?
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat