Tutustuminen .groupby()-Metodiin
Pyyhkäise näyttääksesi valikon
On ilo nähdä sinut tässä osiossa. Tässä ryhmittelemme dataa löytääksemme tietoa eri riviryhmistä. Tarkastele viivästystietoja sisältävää datajoukkoa (voit vierittää tätä taulukkoa vaakasuunnassa):
Datan ryhmittely on hyödyllistä, ja nyt syvennymme siihen tarkemmin. Kuvittele, että haluat laskea viivästysten määrän jokaiselle lennon numerolle. Katso esimerkkikoodia ja sen jälkeen selitystä:
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
Selitys:
data[['Flight', 'Delay']].groupby('Flight').sum()
data[['Flight', 'Delay']]– Nämä ovat sarakkeet, joiden kanssa työskennellään, mukaan lukien sarakkeet, joiden perusteella ryhmitellään;groupby('Flight')–'Flight'-sarake on argumenttina.groupby()-funktiolle. Tämä tarkoittaa, että rivit, joilla on sama arvo'Flight'-sarakkeessa, ryhmitellään yhteen;.sum()– Tämä funktio toimii kunkin.groupby()-toiminnolla muodostetun ryhmän riveillä. Tässä tapauksessa se laskee yhteen'Delay'-sarakkeen arvot riveille, jotka kuuluvat samaan'Flight'-ryhmään.
Koska 'Delay'-sarake sisältää vain arvot 0 (ei viivästystä) tai 1 (viivästys tapahtui), rivien summa ilmaisee viivästysten lukumäärän kutakin lentoa kohden.
Itse asiassa .sum() on yksi monista aggregointifunktioista, joita voit käyttää. Tulet tutustumaan niihin kaikkiin edetessäsi.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme