Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Avansert Gruppering | Aggregere Data
Avanserte Teknikker i Pandas

bookAvansert Gruppering

La oss utvide kunnskapen vår om .groupby()-metoden. Som du husker, kan vi bruke .agg()-metoden. Hovedfordelen med denne funksjonen er at vi kan bruke ulike funksjoner på de numeriske kolonnene med én gruppert nøkkel. Se på eksempelet der vi grupperte flyvninger etter kolonnen 'Airline', deretter telte verdiene i 'Delay' for hver 'Airline', og beregnet minimums- og maksimumsverdiene for kolonnen 'Length'. Veldig praktisk, ikke sant?

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data.groupby('Airline').agg({'Delay': 'count', 'Length': ['min', 'max']}) print(data_flights.head(10))
copy

Forklaring:

.agg({'Delay': 'count', 'Length': ['min', 'max']})
  • .agg() – en metode som lar oss bruke funksjoner på en serie eller på hvert element separat;
  • {} – vi bruker krøllparenteser for å spesifisere kolonnen og bruke funksjoner direkte på dem;
  • 'Delay': 'count' – bruker .count()-funksjonen på verdiene i 'Delay'-kolonnen med samme gruppert nøkkel;
  • 'Length': ['min', 'max'] – bruker .min()- og .max()-funksjonene på verdiene i 'Length'-kolonnen med samme gruppert nøkkel. Du trenger bare å skrive kolonnenavnet uten () eller .-symbolene i funksjonen. Merk at hvis du vil bruke flere funksjoner på samme kolonne, må du legge dem i en liste.
Oppgave

Swipe to start coding

Vi kan anta at en forsinkelse avhenger av flyselskapet eller flyplassen, men la oss gå dypere og se på gjennomsnittlig og maksimal forsinkelsestid avhengig av flyplassen hvor flyet startet, og deretter på flyplassen hvor flyet landet. Se også på medianverdien for flyets lengde. Følg algoritmen:

Grupper data:

  • Bruk .groupby()-metoden på datasettet data;
  • I .groupby()-metoden, angi kolonnene 'AirportFrom' og 'AirportTo'; rekkefølgen er avgjørende;
  • Bruk .agg()-metoden for å beregne aggregerte verdier: gjennomsnittlig og maksimal verdi i kolonnen 'Time', samt medianverdien i kolonnen 'Length'.

Løsning

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 4. Kapittel 4
single

single

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain what the output of this code would look like?

What other functions can I use with `.agg()` besides 'count', 'min', and 'max'?

How can I group by multiple columns using `.groupby()` and `.agg()`?

close

Awesome!

Completion rate improved to 3.03

bookAvansert Gruppering

Sveip for å vise menyen

La oss utvide kunnskapen vår om .groupby()-metoden. Som du husker, kan vi bruke .agg()-metoden. Hovedfordelen med denne funksjonen er at vi kan bruke ulike funksjoner på de numeriske kolonnene med én gruppert nøkkel. Se på eksempelet der vi grupperte flyvninger etter kolonnen 'Airline', deretter telte verdiene i 'Delay' for hver 'Airline', og beregnet minimums- og maksimumsverdiene for kolonnen 'Length'. Veldig praktisk, ikke sant?

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data.groupby('Airline').agg({'Delay': 'count', 'Length': ['min', 'max']}) print(data_flights.head(10))
copy

Forklaring:

.agg({'Delay': 'count', 'Length': ['min', 'max']})
  • .agg() – en metode som lar oss bruke funksjoner på en serie eller på hvert element separat;
  • {} – vi bruker krøllparenteser for å spesifisere kolonnen og bruke funksjoner direkte på dem;
  • 'Delay': 'count' – bruker .count()-funksjonen på verdiene i 'Delay'-kolonnen med samme gruppert nøkkel;
  • 'Length': ['min', 'max'] – bruker .min()- og .max()-funksjonene på verdiene i 'Length'-kolonnen med samme gruppert nøkkel. Du trenger bare å skrive kolonnenavnet uten () eller .-symbolene i funksjonen. Merk at hvis du vil bruke flere funksjoner på samme kolonne, må du legge dem i en liste.
Oppgave

Swipe to start coding

Vi kan anta at en forsinkelse avhenger av flyselskapet eller flyplassen, men la oss gå dypere og se på gjennomsnittlig og maksimal forsinkelsestid avhengig av flyplassen hvor flyet startet, og deretter på flyplassen hvor flyet landet. Se også på medianverdien for flyets lengde. Følg algoritmen:

Grupper data:

  • Bruk .groupby()-metoden på datasettet data;
  • I .groupby()-metoden, angi kolonnene 'AirportFrom' og 'AirportTo'; rekkefølgen er avgjørende;
  • Bruk .agg()-metoden for å beregne aggregerte verdier: gjennomsnittlig og maksimal verdi i kolonnen 'Time', samt medianverdien i kolonnen 'Length'.

Løsning

Switch to desktopBytt til skrivebordet for virkelighetspraksisFortsett der du er med et av alternativene nedenfor
Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 4. Kapittel 4
single

single

some-alt