Tulosten Näyttäminen ja Visualisointi
Pyyhkäise näyttääksesi valikon
display()-funktio on sisäänrakennettu Databricks-komento, jota käytetään datan esittämiseen interaktiivisessa, taulukkomuotoisessa tai graafisessa muodossa. Sen avulla käyttäjät voivat tutkia tietoaineistoja ja luoda visuaalisia kaavioita suoraan notebookissa ilman ulkoisia kirjastoja.
Databricksissa pelkän muuttujan nimen tai kyselyn suorittaminen näyttää raakadataa. Jotta datasta saadaan helposti luettavaa ja "esityskelpoista", käytetään display()-komentoa. Tämä on ensisijainen tapa muuntaa raakaluvut visuaalisiksi havainnoiksi.
display()-funktion voima
Pythonin kanssa työskennellessä saatat olla tottunut käyttämään print(). Vaikka print() toimii tekstille, se ei ole ihanteellinen suurille tietoaineistoille. Käyttämällä display(your_dataframe) Databricks näyttää datan interaktiivisena taulukkona.
Voit selata tuhansia rivejä. Voit klikata sarakeotsikoita lajitellaksesi tietoja nousevaan tai laskevaan järjestykseen. Voit käyttää sisäänrakennettua hakupalkkia tuloksissa löytääksesi tiettyjä arvoja välittömästi:
- Voit selata tuhansia rivejä;
- Voit klikata sarakeotsikoita lajitellaksesi tietoja nousevaan tai laskevaan järjestykseen;
- Voit käyttää sisäänrakennettua hakupalkkia tuloksissa löytääksesi tiettyjä arvoja välittömästi.
Automaattisten kaavioiden luominen
Kun olet suorittanut solun käyttäen display()-funktiota tai ajanut SQL-kyselyn, tulostaulukko ilmestyy. Tämän taulukon alapuolella näkyy "+"-kuvake. Klikkaamalla sitä voit valita "Visualization".
- Tämä avaa Visualization Editor -editorin;
- Voit valita useista kaaviotyypeistä: pylväs, viiva, alue, ympyrä, hajonta ja muita;
- Vedät ja pudotat haluamasi sarakkeet X- ja Y-akselille. Databricks hoitaa aggregoinnin (kuten summauksen tai keskiarvon laskemisen) automaattisesti.
Visualisointien mukauttaminen
Visualisointieditori on suunniteltu nopeaksi. Voit:
- Muuttaa värejä: määrittää tietyt värit eri datasarjoille;
- Nimetä akselit: lisätä omat otsikot vaaka- ja pystyakselille;
- Ryhmitellä dataa: käyttää "Ryhmittele"-kenttää jakaaksesi yhden viivakaavion useaan viivaan kategorian, kuten "Region" tai "Product Type", perusteella.
Visualisointien lisääminen muistikirjaan
Kun tallennat visualisoinnin, se näkyy erillisenä välilehtenä datataulukon rinnalla. Voit luoda useita visualisointeja samalle solulle. Esimerkiksi yksi välilehti voi näyttää raakamyynnin datan, toinen voi näyttää pylväskaavion myynnistä alueittain ja kolmas voi näyttää piirakkakaavion tuotteen jakautumisesta. Tämä pitää muistikirjan järjestyksessä ja mahdollistaa sidosryhmille datan "tarinan" näkemisen ilman, että heidän tarvitsee tarkastella taustalla olevaa koodia.
Datan profilointi
Kaavioiden lisäksi Databricks tarjoaa "Data Profile" -välilehden tulosalueella. Kun napsautat tätä, saat välittömän tilastollisen yhteenvedon datastasi, jossa näkyy arvojen jakauma, puuttuvien arvojen määrä sekä minimi- ja maksimiarvot jokaiselle sarakkeelle. Tämä on olennainen vaihe datan puhdistuksessa ennen syvällisempää analyysiä.
1. Mikä on display()-funktion tärkein etu verrattuna print()-funktioon tietoaineiston kanssa?
2. Mistä kohtaa klikkaat aloittaaksesi kaavion luomisen kyselysi tuloksista?
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme