Apprendre Group_by et Agrégations

Glissez pour afficher le menu

Le regroupement et l’agrégation des données sont des éléments essentiels du data wrangling, en particulier lorsque l’on souhaite résumer des informations par catégories. Avec Polars, il est possible d’effectuer efficacement des opérations de groupement et d’agrégation en parallèle, ce qui le rend idéal pour les grands ensembles de données. Supposons que vous disposiez d’un DataFrame nommé games_df avec des colonnes telles que developer, price, positive_reviews et negative_reviews. Vous pourriez vouloir calculer le prix moyen et le nombre total d’avis pour chaque développeur. Dans Polars, cela peut être réalisé à l’aide de la méthode group_by, suivie de fonctions d’agrégation comme mean et sum.

Voici comment regrouper games_df par la colonne developer, calculer le prix moyen et additionner le nombre total d’avis (en combinant les avis positifs et négatifs) :


              123456789101112131415161718192021
            
import polars as pl

# Sample data
games_df = pl.DataFrame({
    "developer": ["DevA", "DevB", "DevA", "DevC", "DevB"],
    "price": [10.0, 20.0, 15.0, 30.0, 25.0],
    "positive_reviews": [100, 150, 200, 80, 120],
    "negative_reviews": [10, 20, 15, 5, 8]
})

# Group by developer, calculate average price and total reviews
result = (
    games_df
    .group_by("developer")
    .agg([
        pl.col("price").mean().alias("avg_price"),
        (pl.col("positive_reviews") + pl.col("negative_reviews")).sum().alias("total_reviews")
    ])
)

print(result)

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 1

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 2. Chapitre 1