Fortgeschrittene Polars-Transformationen
Swipe um das Menü anzuzeigen
Beim Arbeiten mit großen Datensätzen ist es oft notwendig, Daten nach Gruppen zusammenzufassen oder zu analysieren. In Polars sind die Methoden groupby und Aggregationen auf hohe Leistung ausgelegt, sodass Sie Statistiken auch bei sehr großen Datenmengen effizient berechnen können. Mit Groupby-Operationen können Sie Ihre Daten anhand einer oder mehrerer Spalten in Gruppen aufteilen und anschließend Funktionen wie sum, mean oder count auf jede Gruppe anwenden. Dies ist besonders nützlich für Aufgaben wie das Ermitteln des durchschnittlichen Umsatzes pro Region, der Gesamtanzahl verkaufter Artikel pro Kategorie oder des Maximalwerts in jeder Gruppe.
Polars zeichnet sich dadurch aus, dass es für parallele Ausführung optimiert ist, sodass Groupby-Operationen deutlich schneller sind als bei vielen anderen Datenbibliotheken. Sie können Millionen von Zeilen schnell aggregieren, ohne auf Speicher- oder Geschwindigkeitsprobleme zu stoßen. Die Syntax ist zudem prägnant und ausdrucksstark, was Ihren Code leicht lesbar und wartbar macht.
Angenommen, Sie haben einen Datensatz mit Verkaufsdaten und möchten den Gesamt- und Durchschnittsumsatz für jede Produktkategorie ermitteln. Mit Polars erreichen Sie dies mit nur wenigen Codezeilen.
12345678910111213141516171819import polars as pl # Create a sample DataFrame df = pl.DataFrame({ "category": ["A", "A", "B", "B", "C", "A"], "sales": [100, 150, 200, 120, 300, 180] }) # Group by 'category' and aggregate total and average sales result = ( df.groupby("category") .agg([ pl.col("sales").sum().alias("total_sales"), pl.col("sales").mean().alias("average_sales") ]) ) print(result)
Der obige Code gruppiert die Verkaufsdaten nach category und berechnet anschließend sowohl den Gesamt- als auch den Durchschnittsumsatz für jede Gruppe. Dieser Ansatz ist nicht nur kompakt, sondern auch äußerst effizient und eignet sich daher besonders für reale Datensätze, die deutlich größer sein können als das Beispiel.
Polars unterstützt eine Vielzahl von Aggregationsfunktionen wie min, max, count und benutzerdefinierte Ausdrücke, sodass Sie Ihre Analysen individuell anpassen können. Da polars auf Leistung ausgelegt ist, können Sie sich darauf verlassen, dass groupby- und Aggregationsaufgaben auch bei wachsendem Datenvolumen schnell ausgeführt werden.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen