Filtern und Bedingte Logik
Swipe um das Menü anzuzeigen
Das Filtern von Daten ist ein zentraler Bestandteil des Data Wranglings, insbesondere wenn ein bestimmter Teil des Datensatzes betrachtet werden soll. In Polars können Boolesche Masken verwendet werden, um nur die Zeilen auszuwählen, die einer bestimmten Bedingung entsprechen. Angenommen, es gibt ein DataFrame namens games_df mit einer Spalte price. Um Spiele mit einem Preis größer als 20 zu filtern, kann folgende Vorgehensweise genutzt werden:
1234567891011import polars as pl # Example DataFrame games_df = pl.DataFrame({ "name": ["Chess", "Monopoly", "Scrabble", "Catan", "Pandemic"], "price": [10, 25, 15, 35, 22] }) # Filter games with price > 20 filtered_df = games_df.filter(pl.col("price") > 20) print(filtered_df)
In diesem Beispiel sind nur die Spiele mit einem Preis über 20 in filtered_df enthalten.
Mit bedingter Logik können auch neue Spalten auf Basis vorhandener Spaltenwerte erstellt werden. Die Konstruktion pl.when().then().otherwise() ermöglicht eine effiziente Kategorisierung von Daten. Beispielsweise kann jedes Spiel einer Preiskategorie zugeordnet werden: "Budget" für Spiele mit einem Preis von höchstens 15, "Standard" für Preise zwischen 16 und 30 sowie "Premium" für Preise über 30. So kann eine Spalte price_tier zum DataFrame hinzugefügt werden:
12345678910games_with_tier = games_df.with_columns( pl.when(pl.col("price") <= 15) .then("Budget") .when((pl.col("price") > 15) & (pl.col("price") <= 30)) .then("Standard") .otherwise("Premium") .alias("price_tier") ) print(games_with_tier)
Dieser Ansatz ordnet jedem Spiel eine Kategorie basierend auf dem Preis zu und erleichtert so die Segmentierung des Datensatzes für weitere Analysen oder Visualisierungen.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen