Leer Tekst Opschonen | Strings, Datums, Ontbrekende Data

Veeg om het menu te tonen

Bij het werken met realistische data bevatten tekstkolommen vaak ongewenste spaties, extra symbolen of inconsistente opmaak. In Polars kun je de .str namespace gebruiken om deze kolommen efficiënt op te schonen en te transformeren. Stel dat je een DataFrame hebt met een name-kolom die soms begint of eindigt met spaties en leestekens, en een genres-kolom waarin genres als één string zijn opgeslagen, gescheiden door schuine strepen, zoals "Drama / Comedy".

Om de name-kolom op te schonen, kun je .str.strip_chars() gebruiken om spaties en specifieke symbolen aan beide uiteinden van elke string te verwijderen. Voor de genres-kolom kun je .str.split() met een reguliere expressie gebruiken om de string op te splitsen in een lijst van genres.

Hieronder staat een script dat deze technieken demonstreert:


              123456789101112131415161718
            
import polars as pl

df = pl.DataFrame({
    "name": ["  Alice! ", "Bob.", "  Carol  ", "David-"],
    "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"]
})

# Strip whitespace and symbols from 'name'
cleaned_df = df.with_columns([
    pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean")
])

# Use regex to split genres into a list
cleaned_df = cleaned_df.with_columns([
    pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list")
])

print(cleaned_df)

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 1

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 3. Hoofdstuk 1