Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Tekstoprydning | Strenge, Datoer, Manglende Data
Data Wrangling med Polars

Tekstoprydning

Stryg for at vise menuen

Ved arbejde med data fra den virkelige verden indeholder tekstkolonner ofte uønskede mellemrum, ekstra symboler eller inkonsekvent formatering. I Polars kan .str-navnerummet bruges til effektivt at rense og transformere disse kolonner. Antag, at du har en DataFrame med en name-kolonne, der nogle gange indeholder indledende eller afsluttende mellemrum og tegnsætning, samt en genres-kolonne, hvor genrer er gemt som en enkelt streng adskilt af skråstreger, såsom "Drama / Comedy".

For at rense name-kolonnen kan du bruge .str.strip_chars() til at fjerne mellemrum og specifikke symboler fra begge ender af hver streng. For genres-kolonnen kan du bruge .str.split() med et regulært udtryk for at opdele strengen til en liste af genrer.

Her er et script, der demonstrerer disse teknikker:

123456789101112131415161718
import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
question mark

Hvilken .str-metode ville du bruge til at kontrollere, om en genre-kolonne indeholder ordet "Comedy"?

Vælg det korrekte svar

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 1

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 3. Kapitel 1
some-alt