Group_by & Aggregeringer
Stryg for at vise menuen
Gruppering og aggregering af data er en central del af data wrangling, især når du ønsker at opsummere information efter kategorier. Med Polars kan du effektivt udføre group-by-operationer og aggregere resultater parallelt, hvilket gør det ideelt til store datasæt. Antag, at du har en DataFrame kaldet games_df med kolonner som developer, price, positive_reviews og negative_reviews. Du vil måske finde gennemsnitsprisen og det samlede antal anmeldelser for hver udvikler. I Polars kan dette gøres ved hjælp af metoden group_by, efterfulgt af aggregeringsfunktioner som mean og sum.
Her kan du gruppere games_df efter kolonnen developer, beregne gennemsnitsprisen og summere det samlede antal anmeldelser (kombineret både positive og negative anmeldelser):
123456789101112131415161718192021import polars as pl # Sample data games_df = pl.DataFrame({ "developer": ["DevA", "DevB", "DevA", "DevC", "DevB"], "price": [10.0, 20.0, 15.0, 30.0, 25.0], "positive_reviews": [100, 150, 200, 80, 120], "negative_reviews": [10, 20, 15, 5, 8] }) # Group by developer, calculate average price and total reviews result = ( games_df .group_by("developer") .agg([ pl.col("price").mean().alias("avg_price"), (pl.col("positive_reviews") + pl.col("negative_reviews")).sum().alias("total_reviews") ]) ) print(result)
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat