Lära Group_by och Aggregeringar | Kombinera, Aggregera

Svep för att visa menyn

Gruppering och aggregering av data är en central del av datahantering, särskilt när du vill sammanfatta information efter kategorier. Med Polars kan du effektivt utföra group-by-operationer och aggregera resultat parallellt, vilket gör det idealiskt för stora datamängder. Anta att du har en DataFrame kallad games_df med kolumner som developer, price, positive_reviews och negative_reviews. Du kanske vill hitta det genomsnittliga priset och det totala antalet recensioner för varje utvecklare. I Polars kan detta göras med metoden group_by, följt av aggregeringsfunktioner som mean och sum.

Så här kan du gruppera games_df efter kolumnen developer, beräkna genomsnittspriset och summera det totala antalet recensioner (kombinerat positiva och negativa recensioner):


              123456789101112131415161718192021
            
import polars as pl

# Sample data
games_df = pl.DataFrame({
    "developer": ["DevA", "DevB", "DevA", "DevC", "DevB"],
    "price": [10.0, 20.0, 15.0, 30.0, 25.0],
    "positive_reviews": [100, 150, 200, 80, 120],
    "negative_reviews": [10, 20, 15, 5, 8]
})

# Group by developer, calculate average price and total reviews
result = (
    games_df
    .group_by("developer")
    .agg([
        pl.col("price").mean().alias("avg_price"),
        (pl.col("positive_reviews") + pl.col("negative_reviews")).sum().alias("total_reviews")
    ])
)

print(result)

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 1

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Avsnitt 2. Kapitel 1