Lernen Textbereinigung | Zeichenketten, Daten, Fehlende Werte

Swipe um das Menü anzuzeigen

Bei der Arbeit mit realen Daten enthalten Textspalten häufig unerwünschte Leerzeichen, zusätzliche Symbole oder uneinheitliche Formatierungen. In Polars kann das .str-Namespace verwendet werden, um diese Spalten effizient zu bereinigen und zu transformieren. Angenommen, es gibt ein DataFrame mit einer name-Spalte, die manchmal führende oder nachfolgende Leerzeichen und Satzzeichen enthält, sowie eine genres-Spalte, in der Genres als einzelner String durch Schrägstriche getrennt gespeichert sind, wie "Drama / Comedy".

Um die Spalte name zu bereinigen, kann .str.strip_chars() verwendet werden, um Leerzeichen und bestimmte Symbole an beiden Enden jedes Strings zu entfernen. Für die Spalte genres kann .str.split() mit einem regulären Ausdruck genutzt werden, um den String in eine Liste von Genres zu teilen.

Das folgende Skript demonstriert diese Techniken:


              123456789101112131415161718
            
import polars as pl

df = pl.DataFrame({
    "name": ["  Alice! ", "Bob.", "  Carol  ", "David-"],
    "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"]
})

# Strip whitespace and symbols from 'name'
cleaned_df = df.with_columns([
    pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean")
])

# Use regex to split genres into a list
cleaned_df = cleaned_df.with_columns([
    pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list")
])

print(cleaned_df)

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 3. Kapitel 1