Regroupement Avancé
Approfondissement des connaissances sur la méthode .groupby()
. Comme rappelé précédemment, il est possible d'utiliser la méthode .agg()
. En effet, l’un des principaux avantages de cette fonction est de permettre l’application de différentes fonctions aux colonnes numériques avec une seule clé de regroupement. Considérer l’exemple où les vols sont regroupés par la colonne 'Airline'
, puis le comptage des valeurs dans 'Delay'
pour chaque 'Airline'
, ainsi que le calcul des valeurs minimale et maximale pour la colonne 'Length'
. Une approche particulièrement pratique.
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data.groupby('Airline').agg({'Delay': 'count', 'Length': ['min', 'max']}) print(data_flights.head(10))
Explication :
.agg({'Delay': 'count', 'Length': ['min', 'max']})
.agg()
– méthode permettant d’appliquer des fonctions sur une série ou sur chaque élément individuellement ;{}
– utilisation d’accolades pour spécifier la colonne et appliquer directement les fonctions ;'Delay': 'count'
– applique la fonction.count()
aux valeurs de la colonne'Delay'
partageant la même clé de groupe ;'Length': ['min', 'max']
– applique les fonctions.min()
et.max()
aux valeurs de la colonne'Length'
partageant la même clé de groupe. Il suffit d’indiquer le nom de la colonne sans les symboles()
ou.
dans la fonction. À noter : pour appliquer plusieurs fonctions à une même colonne, il est nécessaire de les placer dans une liste.
Swipe to start coding
Nous pouvons supposer qu'un retard dépend de la compagnie aérienne ou de l'aéroport, mais examinons plus en détail les temps de retard moyens et maximums en fonction de l'aéroport de départ, puis de l'aéroport d'arrivée. Examinez également la durée médiane du vol. Suivez l'algorithme :
Regrouper les données :
- Appliquez la méthode
.groupby()
au jeu de donnéesdata
; - Dans la méthode
.groupby()
, placez les colonnes'AirportFrom'
et'AirportTo'
; l'ordre est essentiel ; - À l'aide de la méthode
.agg()
, calculez les valeurs agrégées : la valeur moyenne et maximale dans la colonne'Time'
, ainsi que la valeur médiane de la colonne'Length'
.
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 3.03
Regroupement Avancé
Glissez pour afficher le menu
Approfondissement des connaissances sur la méthode .groupby()
. Comme rappelé précédemment, il est possible d'utiliser la méthode .agg()
. En effet, l’un des principaux avantages de cette fonction est de permettre l’application de différentes fonctions aux colonnes numériques avec une seule clé de regroupement. Considérer l’exemple où les vols sont regroupés par la colonne 'Airline'
, puis le comptage des valeurs dans 'Delay'
pour chaque 'Airline'
, ainsi que le calcul des valeurs minimale et maximale pour la colonne 'Length'
. Une approche particulièrement pratique.
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data.groupby('Airline').agg({'Delay': 'count', 'Length': ['min', 'max']}) print(data_flights.head(10))
Explication :
.agg({'Delay': 'count', 'Length': ['min', 'max']})
.agg()
– méthode permettant d’appliquer des fonctions sur une série ou sur chaque élément individuellement ;{}
– utilisation d’accolades pour spécifier la colonne et appliquer directement les fonctions ;'Delay': 'count'
– applique la fonction.count()
aux valeurs de la colonne'Delay'
partageant la même clé de groupe ;'Length': ['min', 'max']
– applique les fonctions.min()
et.max()
aux valeurs de la colonne'Length'
partageant la même clé de groupe. Il suffit d’indiquer le nom de la colonne sans les symboles()
ou.
dans la fonction. À noter : pour appliquer plusieurs fonctions à une même colonne, il est nécessaire de les placer dans une liste.
Swipe to start coding
Nous pouvons supposer qu'un retard dépend de la compagnie aérienne ou de l'aéroport, mais examinons plus en détail les temps de retard moyens et maximums en fonction de l'aéroport de départ, puis de l'aéroport d'arrivée. Examinez également la durée médiane du vol. Suivez l'algorithme :
Regrouper les données :
- Appliquez la méthode
.groupby()
au jeu de donnéesdata
; - Dans la méthode
.groupby()
, placez les colonnes'AirportFrom'
et'AirportTo'
; l'ordre est essentiel ; - À l'aide de la méthode
.agg()
, calculez les valeurs agrégées : la valeur moyenne et maximale dans la colonne'Time'
, ainsi que la valeur médiane de la colonne'Length'
.
Solution
Merci pour vos commentaires !
single