Tekst Opschonen
Veeg om het menu te tonen
Bij het werken met realistische data bevatten tekstkolommen vaak ongewenste spaties, extra symbolen of inconsistente opmaak. In Polars kun je de .str namespace gebruiken om deze kolommen efficiënt op te schonen en te transformeren. Stel dat je een DataFrame hebt met een name-kolom die soms begint of eindigt met spaties en leestekens, en een genres-kolom waarin genres als één string zijn opgeslagen, gescheiden door schuine strepen, zoals "Drama / Comedy".
Om de name-kolom op te schonen, kun je .str.strip_chars() gebruiken om spaties en specifieke symbolen aan beide uiteinden van elke string te verwijderen. Voor de genres-kolom kun je .str.split() met een reguliere expressie gebruiken om de string op te splitsen in een lijst van genres.
Hieronder staat een script dat deze technieken demonstreert:
123456789101112131415161718import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.