Lære Group_by & Aggregeringer | Kombinering, Aggregering

Stryg for at vise menuen

Gruppering og aggregering af data er en central del af data wrangling, især når du ønsker at opsummere information efter kategorier. Med Polars kan du effektivt udføre group-by-operationer og aggregere resultater parallelt, hvilket gør det ideelt til store datasæt. Antag, at du har en DataFrame kaldet games_df med kolonner som developer, price, positive_reviews og negative_reviews. Du vil måske finde gennemsnitsprisen og det samlede antal anmeldelser for hver udvikler. I Polars kan dette gøres ved hjælp af metoden group_by, efterfulgt af aggregeringsfunktioner som mean og sum.

Her kan du gruppere games_df efter kolonnen developer, beregne gennemsnitsprisen og summere det samlede antal anmeldelser (kombineret både positive og negative anmeldelser):


              123456789101112131415161718192021
            
import polars as pl

# Sample data
games_df = pl.DataFrame({
    "developer": ["DevA", "DevB", "DevA", "DevC", "DevB"],
    "price": [10.0, 20.0, 15.0, 30.0, 25.0],
    "positive_reviews": [100, 150, 200, 80, 120],
    "negative_reviews": [10, 20, 15, 5, 8]
})

# Group by developer, calculate average price and total reviews
result = (
    games_df
    .group_by("developer")
    .agg([
        pl.col("price").mean().alias("avg_price"),
        (pl.col("positive_reviews") + pl.col("negative_reviews")).sum().alias("total_reviews")
    ])
)

print(result)

Var alt klart?

Tak for dine kommentarer!

Sektion 2. Kapitel 1

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 2. Kapitel 1