Avancerade Polars-transformationer
Svep för att visa menyn
Vid arbete med stora datamängder behöver du ofta sammanfatta eller analysera data efter grupper. I polars är metoderna groupby och aggregering utformade för hög prestanda, vilket gör att du effektivt kan beräkna statistik även på mycket stora datamängder. Groupby-operationer låter dig dela upp din data i grupper baserat på en eller flera kolumner, och sedan tillämpa funktioner som sum, mean eller count på varje grupp. Detta är särskilt användbart för uppgifter som att hitta genomsnittlig försäljning per region, totalt antal sålda varor per kategori eller det maximala värdet i varje grupp.
Polars utmärker sig eftersom det är optimerat för parallell exekvering, så groupby-operationer är mycket snabbare jämfört med många andra databibliotek. Du kan snabbt aggregera miljontals rader utan att stöta på minnes- eller hastighetsproblem. Syntaxen är också koncis och uttrycksfull, vilket gör din kod lättläst och enkel att underhålla.
Anta att du har en datamängd med försäljningsposter och vill hitta total och genomsnittlig försäljning för varje produktkategori. Med polars kan du uppnå detta med bara några rader kod.
12345678910111213141516171819import polars as pl # Create a sample DataFrame df = pl.DataFrame({ "category": ["A", "A", "B", "B", "C", "A"], "sales": [100, 150, 200, 120, 300, 180] }) # Group by 'category' and aggregate total and average sales result = ( df.groupby("category") .agg([ pl.col("sales").sum().alias("total_sales"), pl.col("sales").mean().alias("average_sales") ]) ) print(result)
Koden ovan grupperar försäljningsdatan efter category och beräknar sedan både total och genomsnittlig försäljning för varje grupp. Detta tillvägagångssätt är inte bara koncist utan även mycket effektivt, vilket gör det praktiskt för verkliga datamängder som kan vara mycket större än exemplet.
Polars stöder ett brett utbud av aggregeringsfunktioner, såsom min, max, count och egna uttryck, vilket gör att du kan anpassa din analys efter behov. Eftersom polars är utformat med prestanda i åtanke kan du lita på att det hanterar groupby och aggregeringsuppgifter snabbt, även när din data växer.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal