Group_by och Aggregeringar
Svep för att visa menyn
Gruppering och aggregering av data är en central del av datahantering, särskilt när du vill sammanfatta information efter kategorier. Med Polars kan du effektivt utföra group-by-operationer och aggregera resultat parallellt, vilket gör det idealiskt för stora datamängder. Anta att du har en DataFrame kallad games_df med kolumner som developer, price, positive_reviews och negative_reviews. Du kanske vill hitta det genomsnittliga priset och det totala antalet recensioner för varje utvecklare. I Polars kan detta göras med metoden group_by, följt av aggregeringsfunktioner som mean och sum.
Så här kan du gruppera games_df efter kolumnen developer, beräkna genomsnittspriset och summera det totala antalet recensioner (kombinerat positiva och negativa recensioner):
123456789101112131415161718192021import polars as pl # Sample data games_df = pl.DataFrame({ "developer": ["DevA", "DevB", "DevA", "DevC", "DevB"], "price": [10.0, 20.0, 15.0, 30.0, 25.0], "positive_reviews": [100, 150, 200, 80, 120], "negative_reviews": [10, 20, 15, 5, 8] }) # Group by developer, calculate average price and total reviews result = ( games_df .group_by("developer") .agg([ pl.col("price").mean().alias("avg_price"), (pl.col("positive_reviews") + pl.col("negative_reviews")).sum().alias("total_reviews") ]) ) print(result)
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal