Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Se Familiariser Avec la Méthode .groupby() | Agrégation de Données
Techniques Avancées dans Pandas

bookSe Familiariser Avec la Méthode .groupby()

Je suis heureux de vous retrouver dans cette section. Ici, nous allons regrouper nos données afin d'obtenir des informations sur différents groupes de lignes. Examinez l'ensemble de données sur les retards (vous pouvez faire défiler ce tableau horizontalement) :

Le regroupement des données est avantageux, et nous allons maintenant l'explorer plus en détail. Imaginez que vous souhaitez calculer le nombre de retards pour chaque numéro de vol. Regardez l'exemple de code, puis l'explication :

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Explication :

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] – Colonnes sur lesquelles l'opération sera effectuée, y compris celles utilisées pour le regroupement ;
  • groupby('Flight') – La colonne 'Flight' est l'argument de la fonction .groupby(). Cela signifie que les lignes ayant la même valeur dans la colonne 'Flight' seront regroupées ;
  • .sum() – Fonction appliquée aux lignes de chaque groupe créé par .groupby(). Dans ce cas, elle additionne les valeurs de la colonne 'Delay' pour les lignes appartenant au même groupe 'Flight'.
Note
Remarque

Étant donné que la colonne 'Delay' ne contient que des 0 (aucun retard) ou des 1 (retard survenu) comme valeurs possibles, la somme des lignes représente le nombre de retards pour chaque vol.

En réalité, .sum() fait partie des nombreuses fonctions d'agrégation disponibles. Vous les découvrirez toutes au fur et à mesure de votre progression.

question-icon

Compléter les espaces pour trouver la valeur moyenne de la colonne 'Time' en fonction de la colonne 'DayOfWeek'.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 1

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 3.03

bookSe Familiariser Avec la Méthode .groupby()

Glissez pour afficher le menu

Je suis heureux de vous retrouver dans cette section. Ici, nous allons regrouper nos données afin d'obtenir des informations sur différents groupes de lignes. Examinez l'ensemble de données sur les retards (vous pouvez faire défiler ce tableau horizontalement) :

Le regroupement des données est avantageux, et nous allons maintenant l'explorer plus en détail. Imaginez que vous souhaitez calculer le nombre de retards pour chaque numéro de vol. Regardez l'exemple de code, puis l'explication :

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Explication :

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] – Colonnes sur lesquelles l'opération sera effectuée, y compris celles utilisées pour le regroupement ;
  • groupby('Flight') – La colonne 'Flight' est l'argument de la fonction .groupby(). Cela signifie que les lignes ayant la même valeur dans la colonne 'Flight' seront regroupées ;
  • .sum() – Fonction appliquée aux lignes de chaque groupe créé par .groupby(). Dans ce cas, elle additionne les valeurs de la colonne 'Delay' pour les lignes appartenant au même groupe 'Flight'.
Note
Remarque

Étant donné que la colonne 'Delay' ne contient que des 0 (aucun retard) ou des 1 (retard survenu) comme valeurs possibles, la somme des lignes représente le nombre de retards pour chaque vol.

En réalité, .sum() fait partie des nombreuses fonctions d'agrégation disponibles. Vous les découvrirez toutes au fur et à mesure de votre progression.

question-icon

Compléter les espaces pour trouver la valeur moyenne de la colonne 'Time' en fonction de la colonne 'DayOfWeek'.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 1
some-alt