Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Tekstrensing | Strenger, Datoer, Manglende Data
Data Wrangling med Polars

Tekstrensing

Sveip for å vise menyen

Ved arbeid med data fra virkelige situasjoner inneholder tekstkolonner ofte uønskede mellomrom, ekstra symboler eller inkonsekvent formatering. I Polars kan du bruke .str-navnerommet for å effektivt rense og transformere slike kolonner. Anta at du har en DataFrame med en name-kolonne som noen ganger inkluderer innledende eller etterfølgende mellomrom og tegnsetting, og en genres-kolonne der sjangre er lagret som én streng adskilt med skråstreker, som "Drama / Comedy".

For å rense name-kolonnen kan du bruke .str.strip_chars() for å fjerne mellomrom og spesifikke symboler fra begge ender av hver streng. For genres-kolonnen kan du bruke .str.split() med et regulært uttrykk for å dele strengen opp i en liste med sjangre.

Her er et skript som demonstrerer disse teknikkene:

123456789101112131415161718
import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
question mark

Hvilken .str-metode ville du brukt for å sjekke om en sjangerkolonne inneholder ordet "Comedy"?

Velg det helt riktige svaret

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 1

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 3. Kapittel 1
some-alt