Se Familiariser Avec la Méthode .groupby()
Je suis heureux de vous retrouver dans cette section. Ici, nous allons regrouper nos données afin d'obtenir des informations sur différents groupes de lignes. Examinez l'ensemble de données sur les retards (vous pouvez faire défiler ce tableau horizontalement) :
Le regroupement des données est avantageux, et nous allons maintenant l'explorer plus en détail. Imaginez que vous souhaitez calculer le nombre de retards pour chaque numéro de vol. Regardez l'exemple de code, puis l'explication :
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
Explication :
data[['Flight', 'Delay']].groupby('Flight').sum()
data[['Flight', 'Delay']]
– Colonnes sur lesquelles l'opération sera effectuée, y compris celles utilisées pour le regroupement ;groupby('Flight')
– La colonne'Flight'
est l'argument de la fonction.groupby()
. Cela signifie que les lignes ayant la même valeur dans la colonne'Flight'
seront regroupées ;.sum()
– Fonction appliquée aux lignes de chaque groupe créé par.groupby()
. Dans ce cas, elle additionne les valeurs de la colonne'Delay'
pour les lignes appartenant au même groupe'Flight'
.
Étant donné que la colonne 'Delay'
ne contient que des 0
(aucun retard) ou des 1
(retard survenu) comme valeurs possibles, la somme des lignes représente le nombre de retards pour chaque vol.
En réalité, .sum()
fait partie des nombreuses fonctions d'agrégation disponibles. Vous les découvrirez toutes au fur et à mesure de votre progression.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 3.03
Se Familiariser Avec la Méthode .groupby()
Glissez pour afficher le menu
Je suis heureux de vous retrouver dans cette section. Ici, nous allons regrouper nos données afin d'obtenir des informations sur différents groupes de lignes. Examinez l'ensemble de données sur les retards (vous pouvez faire défiler ce tableau horizontalement) :
Le regroupement des données est avantageux, et nous allons maintenant l'explorer plus en détail. Imaginez que vous souhaitez calculer le nombre de retards pour chaque numéro de vol. Regardez l'exemple de code, puis l'explication :
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
Explication :
data[['Flight', 'Delay']].groupby('Flight').sum()
data[['Flight', 'Delay']]
– Colonnes sur lesquelles l'opération sera effectuée, y compris celles utilisées pour le regroupement ;groupby('Flight')
– La colonne'Flight'
est l'argument de la fonction.groupby()
. Cela signifie que les lignes ayant la même valeur dans la colonne'Flight'
seront regroupées ;.sum()
– Fonction appliquée aux lignes de chaque groupe créé par.groupby()
. Dans ce cas, elle additionne les valeurs de la colonne'Delay'
pour les lignes appartenant au même groupe'Flight'
.
Étant donné que la colonne 'Delay'
ne contient que des 0
(aucun retard) ou des 1
(retard survenu) comme valeurs possibles, la somme des lignes représente le nombre de retards pour chaque vol.
En réalité, .sum()
fait partie des nombreuses fonctions d'agrégation disponibles. Vous les découvrirez toutes au fur et à mesure de votre progression.
Merci pour vos commentaires !