Group_by & Aggregaties
Veeg om het menu te tonen
Gegevens groeperen en aggregeren is een essentieel onderdeel van data wrangling, vooral wanneer je informatie per categorie wilt samenvatten. Met Polars kun je efficiënt group-by-operaties uitvoeren en resultaten parallel aggregeren, wat het ideaal maakt voor grote datasets. Stel dat je een DataFrame hebt genaamd games_df met kolommen zoals developer, price, positive_reviews en negative_reviews. Mogelijk wil je de gemiddelde prijs en het totaal aantal reviews per ontwikkelaar bepalen. In Polars kan dit worden gedaan met de group_by-methode, gevolgd door aggregatiefuncties zoals mean en sum.
Hier zie je hoe je games_df kunt groeperen op de kolom developer, de gemiddelde prijs kunt berekenen en het totaal aantal reviews (de som van positieve en negatieve reviews) kunt bepalen:
123456789101112131415161718192021import polars as pl # Sample data games_df = pl.DataFrame({ "developer": ["DevA", "DevB", "DevA", "DevC", "DevB"], "price": [10.0, 20.0, 15.0, 30.0, 25.0], "positive_reviews": [100, 150, 200, 80, 120], "negative_reviews": [10, 20, 15, 5, 8] }) # Group by developer, calculate average price and total reviews result = ( games_df .group_by("developer") .agg([ pl.col("price").mean().alias("avg_price"), (pl.col("positive_reviews") + pl.col("negative_reviews")).sum().alias("total_reviews") ]) ) print(result)
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.