Daten Zusammenführen
Swipe um das Menü anzuzeigen
Das Zusammenführen von Daten aus mehreren Quellen ist eine gängige Aufgabe beim Data Wrangling, insbesondere wenn der primäre Datensatz mit zusätzlichen Erkenntnissen angereichert werden soll. In diesem Kapitel wird gezeigt, wie games_df mit spy_insights_df über die Spalte app_id als Schlüssel verbunden wird. Polars bietet flexible und effiziente Join-Operationen, die das Kombinieren von Datensätzen erleichtern und gleichzeitig die Kontrolle darüber ermöglichen, wie nicht übereinstimmende Zeilen behandelt werden. Die beiden am häufigsten verwendeten Join-Typen sind der Left Join und der Inner Join.
Ein Left Join gibt alle Zeilen aus dem linken DataFrame (games_df) zurück und ergänzt passende Zeilen aus dem rechten DataFrame (spy_insights_df). Gibt es keine Übereinstimmung, werden die Spalten auf der rechten Seite mit Nullwerten aufgefüllt. Ein Inner Join gibt nur die Zeilen zurück, bei denen in beiden DataFrames eine Übereinstimmung besteht, und verwirft alle Zeilen aus beiden DataFrames, die keine entsprechende app_id im jeweils anderen enthalten.
1234567891011121314151617181920212223import polars as pl # Sample games_df games_df = pl.DataFrame({ "app_id": [1, 2, 3, 4], "game_name": ["Space Quest", "Jungle Run", "Mystery Manor", "Puzzle Island"] }) # Sample spy_insights_df spy_insights_df = pl.DataFrame({ "app_id": [2, 3, 5], "insight": ["High engagement", "Trending", "Low installs"] }) # Left join: all rows from games_df, matched data from spy_insights_df left_joined = games_df.join(spy_insights_df, on="app_id", how="left") print("Left Join Result:") print(left_joined) # Inner join: only rows with matching app_id in both DataFrames inner_joined = games_df.join(spy_insights_df, on="app_id", how="inner") print("\nInner Join Result:") print(inner_joined)
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen