Pyyhkäise näyttääksesi valikon

On ilo nähdä sinut tässä osiossa. Tässä ryhmittelemme dataa löytääksemme tietoa eri riviryhmistä. Tarkastele viivästystietoja sisältävää datajoukkoa (voit vierittää tätä taulukkoa vaakasuunnassa):

Datan ryhmittely on hyödyllistä, ja nyt syvennymme siihen tarkemmin. Kuvittele, että haluat laskea viivästysten määrän jokaiselle lennon numerolle. Katso esimerkkikoodia ja sen jälkeen selitystä:


              1234
            
import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0)
data_flights = data[['Flight', 'Delay']].groupby('Flight').sum()
print(data_flights.head())

Selitys:

data[['Flight', 'Delay']].groupby('Flight').sum()

data[['Flight', 'Delay']] – Nämä ovat sarakkeet, joiden kanssa työskennellään, mukaan lukien sarakkeet, joiden perusteella ryhmitellään;
groupby('Flight') – 'Flight'-sarake on argumenttina .groupby()-funktiolle. Tämä tarkoittaa, että rivit, joilla on sama arvo 'Flight'-sarakkeessa, ryhmitellään yhteen;
.sum() – Tämä funktio toimii kunkin .groupby()-toiminnolla muodostetun ryhmän riveillä. Tässä tapauksessa se laskee yhteen 'Delay'-sarakkeen arvot riveille, jotka kuuluvat samaan 'Flight'-ryhmään.

Huomio

Koska 'Delay'-sarake sisältää vain arvot 0 (ei viivästystä) tai 1 (viivästys tapahtui), rivien summa ilmaisee viivästysten lukumäärän kutakin lentoa kohden.

Itse asiassa .sum() on yksi monista aggregointifunktioista, joita voit käyttää. Tulet tutustumaan niihin kaikkiin edetessäsi.

Täydennä puuttuvat kohdat löytääksesi 'Time'-sarakkeen keskiarvon 'DayOfWeek'-sarakkeen mukaan.

data_extracted = data[['', 'Time']]('

').mean()
print(data_extracted)

DayOfWeek	Time
3	804.993130
4	804.452984
5	702.888362

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 4. Luku 1

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Tutustuminen .groupby()-Metodiin


              1234
            
import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0)
data_flights = data[['Flight', 'Delay']].groupby('Flight').sum()
print(data_flights.head())