Perustason DataFrame-Tutkimus
Pyyhkäise näyttääksesi valikon
DataFramen tutkiminen tarkoittaa DataFramen rakenteen, tietotyyppien ja sisällön tarkastelua. Komennot kuten printSchema() ja display() ovat ensisijaisia työkaluja, joilla varmistetaan, että data on ladattu oikein ennen analyysin aloittamista.
Kun olet ladannut datasi DataFrameen, et voi olettaa sen olevan täydellistä. Sinun täytyy tarkastella sitä ymmärtääksesi, minkä kanssa työskentelet. Tässä luvussa käytät kahta keskeistä Python-komentoa "kurkistaaksesi konepellin alle" sales_records DataFrameen.
Rakenteen tarkastelu: printSchema()
Ensimmäinen asia, jonka data-ammattilainen tekee uuden DataFramen kanssa, on tarkistaa skeeman. Skeema on datasi piirustus – se kertoo jokaisen sarakkeen nimen ja sen sisältämän tietotyypin (Integer, String, Double jne.).
Uudessa solussa suorita:
df.printSchema()
Tuloste on puumainen lista. Tässä voit varmistaa, että "Total_Revenue" on numeerinen tyyppi (kuten double), eikä pelkkä teksti. Jos sarake, jonka odotit olevan numero, näkyy string-tyyppisenä, tiedät, että tietotyypit täytyy korjata ennen laskutoimituksia.
Sisällön tarkastelu: display()
Kun printSchema() näyttää rakenteen, display() näyttää varsinaiset tiedot. Kuten käsiteltiin kohdassa 3, display() on tehokas Databricksin oma funktio.
Suorita:
display(df)
Tämä näyttää DataFramen ensimmäiset 10 000 riviä interaktiivisessa ruudukossa. Tämän avulla voit havaita "likaisen" datan, kuten puuttuvat arvot (näytetään muodossa null) tai epäjohdonmukaisen muotoilun "Region"- tai "Item_Type"-sarakkeissa.
Nopeat tilastotiedot: describe() ja summary()
Jos haluat nähdä sarakkeidesi "matematiikan" ilman monimutkaisia kyselyitä, voit käyttää komentoa describe():
display(df.describe())
Tämä palauttaa taulukon, joka näyttää määrän, keskiarvon, keskihajonnan, minimin ja maksimin jokaiselle numeeriselle sarakkeelle. Nopein tapa tarkistaa poikkeavat arvot — esimerkiksi, jos "Min"-hinta on negatiivinen luku, tiedät, että lähdedatassa on virhe.
Rivien laskeminen: count()
Aineiston laajuuden selvittämiseksi käytä count()-metodia:
print(df.count())
Tämä palauttaa yhden kokonaisluvun, joka ilmaisee rivien kokonaismäärän. Hyödyllinen tarkistettaessa, ettei tietoja ole kadonnut latausprosessin aikana.
Sarakenimien tarkastelu
Jos tarvitset nopeasti luettelon sarakenimistä esimerkiksi kopioitavaksi toiseen funktioon, käytä seuraavaa:
print(df.columns)
Tämä palauttaa yksinkertaisen Python-listan kaikista otsikoista, mikä on erittäin hyödyllistä, kun DataFrame sisältää kymmeniä sarakkeita etkä muista yhden tarkkaa kirjoitusasua.
1. Mitä komentoa tulisi käyttää nähdäksesi DataFrame:n "rakennesuunnitelman", mukaan lukien kaikki sarakenimet ja tietotyypit?
2. Mikä on display(df.describe())-komennon tarkoitus?
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme