Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Att Bekanta Sig Med .groupby()-Metoden | Aggregering av Data
Avancerade tekniker i pandas

bookAtt Bekanta Sig Med .groupby()-Metoden

Jag är glad att se dig i denna sektion. Här kommer vi att gruppera våra data för att hitta information om olika grupper av rader. Undersök datasettet om förseningar (du kan scrolla tabellen horisontellt):

Att gruppera data är fördelaktigt, och nu kommer vi att fördjupa oss i detta. Föreställ dig att du vill beräkna antalet förseningar för varje flygnummer. Titta på kodexemplet och sedan på förklaringen:

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Förklaring:

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] – Dessa är kolumnerna du arbetar med, inklusive de kolumner du ska gruppera;
  • groupby('Flight') – Kolumnen 'Flight' är argumentet för funktionen .groupby(). Detta innebär att rader med samma värde i kolumnen 'Flight' kommer att grupperas tillsammans;
  • .sum() – Denna funktion används på rader inom varje grupp som skapats av .groupby(). I detta fall summeras värdena i kolumnen 'Delay' för rader som tillhör samma 'Flight'-grupp.
Note
Notera

Eftersom kolumnen 'Delay' endast innehåller 0 (ingen försening inträffade) eller 1 (en försening inträffade) som möjliga värden, representerar summan av raderna antalet förseningar för varje flyg.

Faktum är att .sum() är en av många aggregeringsfunktioner du kan använda. Du kommer att bekanta dig med alla dessa under kursens gång.

question-icon

Fyll i luckorna för att hitta medelvärdet av kolumnen 'Time' beroende på kolumnen 'DayOfWeek'.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 1

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 3.03

bookAtt Bekanta Sig Med .groupby()-Metoden

Svep för att visa menyn

Jag är glad att se dig i denna sektion. Här kommer vi att gruppera våra data för att hitta information om olika grupper av rader. Undersök datasettet om förseningar (du kan scrolla tabellen horisontellt):

Att gruppera data är fördelaktigt, och nu kommer vi att fördjupa oss i detta. Föreställ dig att du vill beräkna antalet förseningar för varje flygnummer. Titta på kodexemplet och sedan på förklaringen:

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Förklaring:

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] – Dessa är kolumnerna du arbetar med, inklusive de kolumner du ska gruppera;
  • groupby('Flight') – Kolumnen 'Flight' är argumentet för funktionen .groupby(). Detta innebär att rader med samma värde i kolumnen 'Flight' kommer att grupperas tillsammans;
  • .sum() – Denna funktion används på rader inom varje grupp som skapats av .groupby(). I detta fall summeras värdena i kolumnen 'Delay' för rader som tillhör samma 'Flight'-grupp.
Note
Notera

Eftersom kolumnen 'Delay' endast innehåller 0 (ingen försening inträffade) eller 1 (en försening inträffade) som möjliga värden, representerar summan av raderna antalet förseningar för varje flyg.

Faktum är att .sum() är en av många aggregeringsfunktioner du kan använda. Du kommer att bekanta dig med alla dessa under kursens gång.

question-icon

Fyll i luckorna för att hitta medelvärdet av kolumnen 'Time' beroende på kolumnen 'DayOfWeek'.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 1
some-alt