Bli Kjent Med .groupby()-Metoden
Sveip for å vise menyen
Hyggelig å se deg i denne delen. Her skal vi gruppere dataene våre for å finne informasjon om ulike grupper av rader. Undersøk datasettet om forsinkelser (du kan bla horisontalt i denne tabellen):
Å gruppere data er nyttig, og nå skal vi se nærmere på dette. Tenk deg at du vil beregne antall forsinkelser for hvert flynummer. Se på kodeeksempelet og deretter på forklaringen:
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
Forklaring:
data[['Flight', 'Delay']].groupby('Flight').sum()
data[['Flight', 'Delay']]– Dette er kolonnene du skal arbeide med, inkludert kolonnene du skal gruppere;groupby('Flight')– Kolonnen'Flight'er argumentet for.groupby()-funksjonen. Dette betyr at rader med samme verdi i'Flight'-kolonnen blir gruppert sammen;.sum()– Denne funksjonen opererer på radene innenfor hver gruppe opprettet av.groupby(). I dette tilfellet summeres verdiene i'Delay'-kolonnen for rader som tilhører samme'Flight'-gruppe.
Siden 'Delay'-kolonnen kun inneholder 0 (ingen forsinkelse) eller 1 (forsinkelse) som mulige verdier, representerer summen av radene antall forsinkelser for hver flight.
Faktisk er .sum() én av mange aggregeringsfunksjoner du kan bruke. Du vil bli kjent med alle etter hvert som du fortsetter.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår