Kennismaken Met de .groupby()-Methode
Ik ben blij je in deze sectie te zien. Hier gaan we onze gegevens groeperen om informatie te vinden over verschillende groepen rijen. Bekijk de dataset over vertragingen (je kunt deze tabel horizontaal scrollen):
Gegevens groeperen is nuttig, en nu gaan we er dieper op in. Stel je voor dat je het aantal vertragingen per vluchtnummer wilt berekenen. Bekijk het codevoorbeeld en daarna de uitleg:
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
Uitleg:
data[['Flight', 'Delay']].groupby('Flight').sum()
data[['Flight', 'Delay']]
- Dit zijn de kolommen waarmee u werkt, inclusief de kolommen waarop u groepeert;groupby('Flight')
- De kolom'Flight'
is het argument voor de.groupby()
-functie. Dit betekent dat rijen met dezelfde waarde in de kolom'Flight'
samen worden gegroepeerd;.sum()
- Deze functie wordt toegepast op de rijen binnen elke groep die door.groupby()
is gemaakt. In dit geval worden de waarden in de kolom'Delay'
opgeteld voor rijen die tot dezelfde'Flight'
-groep behoren.
Aangezien de kolom 'Delay'
alleen 0
(geen vertraging opgetreden) of 1
(vertraging opgetreden) als mogelijke waarden bevat, geeft de som van de rijen het aantal vertragingen per vlucht weer.
In feite is .sum()
slechts één van de vele aggregatiefuncties die u kunt gebruiken. U maakt met al deze functies kennis naarmate u verdergaat.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 3.03
Kennismaken Met de .groupby()-Methode
Veeg om het menu te tonen
Ik ben blij je in deze sectie te zien. Hier gaan we onze gegevens groeperen om informatie te vinden over verschillende groepen rijen. Bekijk de dataset over vertragingen (je kunt deze tabel horizontaal scrollen):
Gegevens groeperen is nuttig, en nu gaan we er dieper op in. Stel je voor dat je het aantal vertragingen per vluchtnummer wilt berekenen. Bekijk het codevoorbeeld en daarna de uitleg:
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
Uitleg:
data[['Flight', 'Delay']].groupby('Flight').sum()
data[['Flight', 'Delay']]
- Dit zijn de kolommen waarmee u werkt, inclusief de kolommen waarop u groepeert;groupby('Flight')
- De kolom'Flight'
is het argument voor de.groupby()
-functie. Dit betekent dat rijen met dezelfde waarde in de kolom'Flight'
samen worden gegroepeerd;.sum()
- Deze functie wordt toegepast op de rijen binnen elke groep die door.groupby()
is gemaakt. In dit geval worden de waarden in de kolom'Delay'
opgeteld voor rijen die tot dezelfde'Flight'
-groep behoren.
Aangezien de kolom 'Delay'
alleen 0
(geen vertraging opgetreden) of 1
(vertraging opgetreden) als mogelijke waarden bevat, geeft de som van de rijen het aantal vertragingen per vlucht weer.
In feite is .sum()
slechts één van de vele aggregatiefuncties die u kunt gebruiken. U maakt met al deze functies kennis naarmate u verdergaat.
Bedankt voor je feedback!