Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Tekst Opschonen | Strings, Datums, Ontbrekende Data
Data Wrangling met Polars

Tekst Opschonen

Veeg om het menu te tonen

Bij het werken met realistische data bevatten tekstkolommen vaak ongewenste spaties, extra symbolen of inconsistente opmaak. In Polars kun je de .str namespace gebruiken om deze kolommen efficiënt op te schonen en te transformeren. Stel dat je een DataFrame hebt met een name-kolom die soms begint of eindigt met spaties en leestekens, en een genres-kolom waarin genres als één string zijn opgeslagen, gescheiden door schuine strepen, zoals "Drama / Comedy".

Om de name-kolom op te schonen, kun je .str.strip_chars() gebruiken om spaties en specifieke symbolen aan beide uiteinden van elke string te verwijderen. Voor de genres-kolom kun je .str.split() met een reguliere expressie gebruiken om de string op te splitsen in een lijst van genres.

Hieronder staat een script dat deze technieken demonstreert:

123456789101112131415161718
import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
question mark

Welke .str-methode zou je gebruiken om te controleren of een genre-kolom het woord "Comedy" bevat?

Selecteer het correcte antwoord

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 1

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 3. Hoofdstuk 1
some-alt