Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Regroupement Avancé | Agrégation de Données
Manipulation de Données avec Pandas
Section 4. Chapitre 4
single

single

bookRegroupement Avancé

Glissez pour afficher le menu

Approfondissons notre compréhension de la méthode .groupby(). Comme vous vous en souvenez, nous pouvons utiliser la méthode .agg(). L'avantage principal de cette fonction réside dans sa flexibilité : elle permet d'appliquer plusieurs agrégations différentes à plusieurs colonnes simultanément, tout en retournant un tableau récapitulatif clair.

Consultez l'exemple ci-dessous. Nous avons groupé les vols par 'Airline'. Ensuite, grâce à .agg(), nous avons compté le nombre total de vols (en utilisant la colonne 'Delay') et, en même temps, trouvé la durée de vol la plus courte et la plus longue (en utilisant la colonne 'Length'). Pratique, n'est-ce pas ?

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data.groupby('Airline').agg({'Delay': 'count', 'Length': ['min', 'max']}) print(data_flights.head(10))
copy

Explication :

.agg({'Delay': 'count', 'Length': ['min', 'max']})
  • .agg() : Abréviation de « aggregate ». Cette méthode prend les données groupées et les condense en statistiques récapitulatives selon les règles que vous fournissez.
  • {} : Nous utilisons un dictionnaire Python pour associer des colonnes spécifiques à des opérations spécifiques. Les clés sont les noms des colonnes ciblées, et les valeurs sont les fonctions à appliquer.
  • 'Delay': 'count' : Indique à pandas d'appliquer la fonction de comptage à la colonne 'Delay' pour chaque groupe. Remarquez que nous passons l'alias sous forme de chaîne 'count' au lieu d'écrire count(). Pandas reconnaît ces noms de chaînes standards pour les statistiques courantes.
  • 'Length': ['min', 'max'] : Si vous souhaitez appliquer plus d'une fonction à une seule colonne, vous devez placer les noms des fonctions dans une liste []. Ici, nous calculons à la fois les valeurs minimale et maximale pour la colonne 'Length'.

Comme nous avons appliqué plusieurs fonctions, le DataFrame résultant créera automatiquement des colonnes hiérarchiques (MultiIndex). Vous verrez Length au niveau supérieur, avec min et max classés proprement en dessous.

Tâche

Glissez pour commencer à coder

Votre tâche consiste à approfondir l'analyse en examinant les temps de retard moyens et maximaux en fonction de l'aéroport de départ, puis de l'aéroport d'arrivée. Analysez également la durée médiane du vol. Suivez l'algorithme :

Regroupement des données :

  • Appliquez la méthode .groupby() au jeu de données data ;
  • Dans la méthode .groupby(), indiquez les colonnes 'AirportFrom' et 'AirportTo' ; l'ordre est essentiel ;
  • À l'aide de la méthode .agg(), calculez les valeurs agrégées : la valeur moyenne et maximale de la colonne 'Time', ainsi que la valeur médiane de la colonne 'Length'.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 4
single

single

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

some-alt