Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Textstädning | Strängar, Datum, Saknade Data
Data Wrangling med Polars

Textstädning

Svep för att visa menyn

Vid arbete med verkliga data innehåller textkolumner ofta oönskade blanksteg, extra symboler eller inkonsekvent formatering. I Polars kan du använda .str-namnrymden för att effektivt rensa och transformera dessa kolumner. Anta att du har en DataFrame med en name-kolumn som ibland innehåller inledande eller avslutande blanksteg och skiljetecken, samt en genres-kolumn där genrer lagras som en enda sträng separerad med snedstreck, som "Drama / Comedy".

För att rensa name-kolumnen kan du använda .str.strip_chars() för att ta bort blanksteg och specifika symboler från båda ändarna av varje sträng. För genres-kolumnen kan du använda .str.split() med ett reguljärt uttryck för att dela upp strängen till en lista med genrer.

Här är ett skript som demonstrerar dessa tekniker:

123456789101112131415161718
import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
question mark

Vilken .str-metod skulle du använda för att kontrollera om en genre-kolumn innehåller ordet "Comedy"?

Vänligen välj det korrekta svaret

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 1

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Avsnitt 3. Kapitel 1
some-alt