Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Textbereinigung | Zeichenketten, Daten, Fehlende Werte
Data Wrangling mit Polars

Textbereinigung

Swipe um das Menü anzuzeigen

Bei der Arbeit mit realen Daten enthalten Textspalten häufig unerwünschte Leerzeichen, zusätzliche Symbole oder uneinheitliche Formatierungen. In Polars kann das .str-Namespace verwendet werden, um diese Spalten effizient zu bereinigen und zu transformieren. Angenommen, es gibt ein DataFrame mit einer name-Spalte, die manchmal führende oder nachfolgende Leerzeichen und Satzzeichen enthält, sowie eine genres-Spalte, in der Genres als einzelner String durch Schrägstriche getrennt gespeichert sind, wie "Drama / Comedy".

Um die Spalte name zu bereinigen, kann .str.strip_chars() verwendet werden, um Leerzeichen und bestimmte Symbole an beiden Enden jedes Strings zu entfernen. Für die Spalte genres kann .str.split() mit einem regulären Ausdruck genutzt werden, um den String in eine Liste von Genres zu teilen.

Das folgende Skript demonstriert diese Techniken:

123456789101112131415161718
import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
question mark

Welche .str-Methode wird verwendet, um zu prüfen, ob eine Genre-Spalte das Wort "Comedy" enthält?

Wählen Sie die richtige Antwort aus

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 3. Kapitel 1
some-alt