Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Se Familiariser Avec la Méthode .groupby() | Agrégation de Données
Techniques Avancées dans Pandas
course content

Contenu du cours

Techniques Avancées dans Pandas

Techniques Avancées dans Pandas

1. Se Familiariser Avec l'Indexation et la Sélection de Données
2. Gestion des Conditions
3. Extraction de Données
4. Agrégation de Données
5. Prétraitement des Données

book
Se Familiariser Avec la Méthode .groupby()

Je suis heureux de vous voir dans cette section. Ici, nous allons regrouper nos données pour trouver des informations sur différents groupes de lignes. Examinez l'ensemble de données sur les retards (vous pouvez faire défiler ce tableau horizontalement) :

Regrouper les données est bénéfique, et maintenant nous allons approfondir ce sujet. Imaginez que vous souhaitez calculer le nombre de retards pour chaque numéro de vol. Regardez l'exemple de code puis l'explication :

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Explication :

  • data[['Flight', 'Delay']] - Ce sont les colonnes sur lesquelles vous allez travailler, y compris les colonnes que vous allez regrouper ;
  • groupby('Flight') - La colonne 'Flight' est l'argument de la fonction .groupby(). Cela signifie que les lignes ayant la même valeur dans la colonne 'Flight' seront regroupées ensemble ;
  • .sum() - Cette fonction opère sur les lignes de chaque groupe créé par .groupby(). Dans ce cas, elle additionne les valeurs de la colonne 'Delay' pour les lignes appartenant au même groupe 'Flight'.

Remarque

Étant donné que la colonne 'Delay' ne contient que 0 (aucun retard) ou 1 (un retard) comme valeurs possibles, la somme des lignes représente le nombre de retards pour chaque vol.

En fait, .sum() est l'une des nombreuses fonctions d'agrégation que vous pouvez utiliser. Vous vous familiariserez avec toutes au fur et à mesure de votre progression.

question-icon
Remplissez les espaces pour trouver la valeur moyenne de la colonne `'Time'` en fonction de la colonne `'DayOfWeek'`.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 1
We're sorry to hear that something went wrong. What happened?
some-alt