Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Tutustuminen .Groupby()-Menetelmään | Datan Yhdistäminen
Edistyneet Tekniikat Pandas-Kirjastossa

bookTutustuminen .Groupby()-Menetelmään

On ilo nähdä sinut tässä osiossa. Tässä ryhmittelemme tietojamme löytääksemme tietoa eri riviryhmistä. Tarkastele viivästystietojoukkoa (voit vierittää tätä taulukkoa vaakasuunnassa):

Tietojen ryhmittely on hyödyllistä, ja nyt syvennymme siihen tarkemmin. Kuvittele, että haluat laskea viivästysten määrän jokaiselle lennon numerolle. Katso esimerkkikoodia ja sen jälkeen selitystä:

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Selitys:

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] – Nämä ovat sarakkeet, joiden kanssa työskennellään, mukaan lukien sarakkeet, joiden perusteella ryhmittely tehdään;
  • groupby('Flight')'Flight'-sarake on argumenttina .groupby()-funktiolle. Tämä tarkoittaa, että rivit, joilla on sama arvo 'Flight'-sarakkeessa, ryhmitellään yhteen;
  • .sum() – Tämä funktio toimii kunkin .groupby()-menetelmällä muodostetun ryhmän riveillä. Tässä tapauksessa se laskee yhteen 'Delay'-sarakkeen arvot riveille, jotka kuuluvat samaan 'Flight'-ryhmään.
Note
Huomio

Koska 'Delay'-sarake sisältää vain arvot 0 (ei viivästystä) tai 1 (viivästys tapahtui), rivien summa ilmaisee viivästysten lukumäärän kutakin lentoa kohden.

Itse asiassa .sum() on vain yksi monista aggregointifunktioista, joita voit käyttää. Tulet tutustumaan niihin kaikkiin edetessäsi.

question-icon

Täydennä aukot löytääksesi 'Time'-sarakkeen keskiarvon 'DayOfWeek'-sarakkeen mukaan.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain how to use other aggregation functions like mean or median?

What does the output look like when grouping by a different column?

Can you show an example of grouping by multiple columns?

Awesome!

Completion rate improved to 3.03

bookTutustuminen .Groupby()-Menetelmään

Pyyhkäise näyttääksesi valikon

On ilo nähdä sinut tässä osiossa. Tässä ryhmittelemme tietojamme löytääksemme tietoa eri riviryhmistä. Tarkastele viivästystietojoukkoa (voit vierittää tätä taulukkoa vaakasuunnassa):

Tietojen ryhmittely on hyödyllistä, ja nyt syvennymme siihen tarkemmin. Kuvittele, että haluat laskea viivästysten määrän jokaiselle lennon numerolle. Katso esimerkkikoodia ja sen jälkeen selitystä:

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Selitys:

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] – Nämä ovat sarakkeet, joiden kanssa työskennellään, mukaan lukien sarakkeet, joiden perusteella ryhmittely tehdään;
  • groupby('Flight')'Flight'-sarake on argumenttina .groupby()-funktiolle. Tämä tarkoittaa, että rivit, joilla on sama arvo 'Flight'-sarakkeessa, ryhmitellään yhteen;
  • .sum() – Tämä funktio toimii kunkin .groupby()-menetelmällä muodostetun ryhmän riveillä. Tässä tapauksessa se laskee yhteen 'Delay'-sarakkeen arvot riveille, jotka kuuluvat samaan 'Flight'-ryhmään.
Note
Huomio

Koska 'Delay'-sarake sisältää vain arvot 0 (ei viivästystä) tai 1 (viivästys tapahtui), rivien summa ilmaisee viivästysten lukumäärän kutakin lentoa kohden.

Itse asiassa .sum() on vain yksi monista aggregointifunktioista, joita voit käyttää. Tulet tutustumaan niihin kaikkiin edetessäsi.

question-icon

Täydennä aukot löytääksesi 'Time'-sarakkeen keskiarvon 'DayOfWeek'-sarakkeen mukaan.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 1
some-alt