Textbereinigung
Swipe um das Menü anzuzeigen
Bei der Arbeit mit realen Daten enthalten Textspalten häufig unerwünschte Leerzeichen, zusätzliche Symbole oder uneinheitliche Formatierungen. In Polars kann das .str-Namespace verwendet werden, um diese Spalten effizient zu bereinigen und zu transformieren. Angenommen, es gibt ein DataFrame mit einer name-Spalte, die manchmal führende oder nachfolgende Leerzeichen und Satzzeichen enthält, sowie eine genres-Spalte, in der Genres als einzelner String durch Schrägstriche getrennt gespeichert sind, wie "Drama / Comedy".
Um die Spalte name zu bereinigen, kann .str.strip_chars() verwendet werden, um Leerzeichen und bestimmte Symbole an beiden Enden jedes Strings zu entfernen. Für die Spalte genres kann .str.split() mit einem regulären Ausdruck genutzt werden, um den String in eine Liste von Genres zu teilen.
Das folgende Skript demonstriert diese Techniken:
123456789101112131415161718import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen