Contenu du cours
Techniques Avancées dans Pandas
Techniques Avancées dans Pandas
Se Familiariser Avec la Méthode .groupby()
Je suis heureux de vous voir dans cette section. Ici, nous allons regrouper nos données pour trouver des informations sur différents groupes de lignes. Examinez l'ensemble de données sur les retards (vous pouvez faire défiler ce tableau horizontalement) :
Regrouper les données est bénéfique, et maintenant nous allons approfondir ce sujet. Imaginez que vous souhaitez calculer le nombre de retards pour chaque numéro de vol. Regardez l'exemple de code puis l'explication :
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
Explication :
data[['Flight', 'Delay']]
- Ce sont les colonnes sur lesquelles vous allez travailler, y compris les colonnes que vous allez regrouper ;groupby('Flight')
- La colonne'Flight'
est l'argument de la fonction.groupby()
. Cela signifie que les lignes ayant la même valeur dans la colonne'Flight'
seront regroupées ensemble ;.sum()
- Cette fonction opère sur les lignes de chaque groupe créé par.groupby()
. Dans ce cas, elle additionne les valeurs de la colonne'Delay'
pour les lignes appartenant au même groupe'Flight'
.
Remarque
Étant donné que la colonne
'Delay'
ne contient que0
(aucun retard) ou1
(un retard) comme valeurs possibles, la somme des lignes représente le nombre de retards pour chaque vol.
En fait, .sum()
est l'une des nombreuses fonctions d'agrégation que vous pouvez utiliser. Vous vous familiariserez avec toutes au fur et à mesure de votre progression.
Merci pour vos commentaires !