Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Perustason DataFrame-Tutkimus | Tietojen Käsittely
Databricks Perusteet: Aloittelijan Opas

Perustason DataFrame-Tutkimus

Pyyhkäise näyttääksesi valikon

Note
Määritelmä

DataFramen tutkiminen tarkoittaa DataFramen rakenteen, tietotyyppien ja sisällön tarkastelua. Komennot kuten printSchema() ja display() ovat ensisijaisia työkaluja, joilla varmistetaan, että data on ladattu oikein ennen analyysin aloittamista.

Kun olet ladannut datasi DataFrameen, et voi olettaa sen olevan täydellistä. Sinun täytyy tarkastella sitä ymmärtääksesi, minkä kanssa työskentelet. Tässä luvussa käytät kahta keskeistä Python-komentoa "kurkistaaksesi konepellin alle" sales_records DataFrameen.

Rakenteen tarkastelu: printSchema()

Ensimmäinen asia, jonka data-ammattilainen tekee uuden DataFramen kanssa, on tarkistaa skeeman. Skeema on datasi piirustus – se kertoo jokaisen sarakkeen nimen ja sen sisältämän tietotyypin (Integer, String, Double jne.).

Uudessa solussa suorita:

df.printSchema()

Tuloste on puumainen lista. Tässä voit varmistaa, että "Total_Revenue" on numeerinen tyyppi (kuten double), eikä pelkkä teksti. Jos sarake, jonka odotit olevan numero, näkyy string-tyyppisenä, tiedät, että tietotyypit täytyy korjata ennen laskutoimituksia.

Sisällön tarkastelu: display()

Kun printSchema() näyttää rakenteen, display() näyttää varsinaiset tiedot. Kuten käsiteltiin kohdassa 3, display() on tehokas Databricksin oma funktio.

Suorita:

display(df)

Tämä näyttää DataFramen ensimmäiset 10 000 riviä interaktiivisessa ruudukossa. Tämän avulla voit havaita "likaisen" datan, kuten puuttuvat arvot (näytetään muodossa null) tai epäjohdonmukaisen muotoilun "Region"- tai "Item_Type"-sarakkeissa.

Nopeat tilastotiedot: describe() ja summary()

Jos haluat nähdä sarakkeidesi "matematiikan" ilman monimutkaisia kyselyitä, voit käyttää komentoa describe():

display(df.describe())

Tämä palauttaa taulukon, joka näyttää määrän, keskiarvon, keskihajonnan, minimin ja maksimin jokaiselle numeeriselle sarakkeelle. Nopein tapa tarkistaa poikkeavat arvot — esimerkiksi, jos "Min"-hinta on negatiivinen luku, tiedät, että lähdedatassa on virhe.

Rivien laskeminen: count()

Aineiston laajuuden selvittämiseksi käytä count()-metodia:

print(df.count())

Tämä palauttaa yhden kokonaisluvun, joka ilmaisee rivien kokonaismäärän. Hyödyllinen tarkistettaessa, ettei tietoja ole kadonnut latausprosessin aikana.

Sarakenimien tarkastelu

Jos tarvitset nopeasti luettelon sarakenimistä esimerkiksi kopioitavaksi toiseen funktioon, käytä seuraavaa:

print(df.columns)

Tämä palauttaa yksinkertaisen Python-listan kaikista otsikoista, mikä on erittäin hyödyllistä, kun DataFrame sisältää kymmeniä sarakkeita etkä muista yhden tarkkaa kirjoitusasua.

1. Mitä komentoa tulisi käyttää nähdäksesi DataFrame:n "rakennesuunnitelman", mukaan lukien kaikki sarakenimet ja tietotyypit?

2. Mikä on display(df.describe())-komennon tarkoitus?

question mark

Mitä komentoa tulisi käyttää nähdäksesi DataFrame:n "rakennesuunnitelman", mukaan lukien kaikki sarakenimet ja tietotyypit?

Valitse oikea vastaus

question mark

Mikä on display(df.describe())-komennon tarkoitus?

Valitse oikea vastaus

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 3

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 4. Luku 3
some-alt