Tutustuminen .Groupby()-Menetelmään
On ilo nähdä sinut tässä osiossa. Tässä ryhmittelemme tietojamme löytääksemme tietoa eri riviryhmistä. Tarkastele viivästystietojoukkoa (voit vierittää tätä taulukkoa vaakasuunnassa):
Tietojen ryhmittely on hyödyllistä, ja nyt syvennymme siihen tarkemmin. Kuvittele, että haluat laskea viivästysten määrän jokaiselle lennon numerolle. Katso esimerkkikoodia ja sen jälkeen selitystä:
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
Selitys:
data[['Flight', 'Delay']].groupby('Flight').sum()
data[['Flight', 'Delay']]
– Nämä ovat sarakkeet, joiden kanssa työskennellään, mukaan lukien sarakkeet, joiden perusteella ryhmittely tehdään;groupby('Flight')
–'Flight'
-sarake on argumenttina.groupby()
-funktiolle. Tämä tarkoittaa, että rivit, joilla on sama arvo'Flight'
-sarakkeessa, ryhmitellään yhteen;.sum()
– Tämä funktio toimii kunkin.groupby()
-menetelmällä muodostetun ryhmän riveillä. Tässä tapauksessa se laskee yhteen'Delay'
-sarakkeen arvot riveille, jotka kuuluvat samaan'Flight'
-ryhmään.
Koska 'Delay'
-sarake sisältää vain arvot 0
(ei viivästystä) tai 1
(viivästys tapahtui), rivien summa ilmaisee viivästysten lukumäärän kutakin lentoa kohden.
Itse asiassa .sum()
on vain yksi monista aggregointifunktioista, joita voit käyttää. Tulet tutustumaan niihin kaikkiin edetessäsi.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain how to use other aggregation functions like mean or median?
What does the output look like when grouping by a different column?
Can you show an example of grouping by multiple columns?
Awesome!
Completion rate improved to 3.03
Tutustuminen .Groupby()-Menetelmään
Pyyhkäise näyttääksesi valikon
On ilo nähdä sinut tässä osiossa. Tässä ryhmittelemme tietojamme löytääksemme tietoa eri riviryhmistä. Tarkastele viivästystietojoukkoa (voit vierittää tätä taulukkoa vaakasuunnassa):
Tietojen ryhmittely on hyödyllistä, ja nyt syvennymme siihen tarkemmin. Kuvittele, että haluat laskea viivästysten määrän jokaiselle lennon numerolle. Katso esimerkkikoodia ja sen jälkeen selitystä:
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
Selitys:
data[['Flight', 'Delay']].groupby('Flight').sum()
data[['Flight', 'Delay']]
– Nämä ovat sarakkeet, joiden kanssa työskennellään, mukaan lukien sarakkeet, joiden perusteella ryhmittely tehdään;groupby('Flight')
–'Flight'
-sarake on argumenttina.groupby()
-funktiolle. Tämä tarkoittaa, että rivit, joilla on sama arvo'Flight'
-sarakkeessa, ryhmitellään yhteen;.sum()
– Tämä funktio toimii kunkin.groupby()
-menetelmällä muodostetun ryhmän riveillä. Tässä tapauksessa se laskee yhteen'Delay'
-sarakkeen arvot riveille, jotka kuuluvat samaan'Flight'
-ryhmään.
Koska 'Delay'
-sarake sisältää vain arvot 0
(ei viivästystä) tai 1
(viivästys tapahtui), rivien summa ilmaisee viivästysten lukumäärän kutakin lentoa kohden.
Itse asiassa .sum()
on vain yksi monista aggregointifunktioista, joita voit käyttää. Tulet tutustumaan niihin kaikkiin edetessäsi.
Kiitos palautteestasi!