Aprenda Limpeza de Texto | Strings, Datas, Dados Ausentes

Deslize para mostrar o menu

Ao trabalhar com dados do mundo real, colunas de texto frequentemente contêm espaços em branco indesejados, símbolos extras ou formatação inconsistente. No Polars, é possível utilizar o namespace .str para limpar e transformar essas colunas de forma eficiente. Suponha que você tenha um DataFrame com uma coluna name que, às vezes, inclui espaços em branco ou pontuação no início ou no final, e uma coluna genres onde os gêneros estão armazenados como uma única string separada por barras, como "Drama / Comedy".

Para limpar a coluna name, pode-se usar .str.strip_chars() para remover espaços em branco e símbolos específicos das extremidades de cada string. Para a coluna genres, é possível utilizar .str.split() com uma expressão regular para dividir a string em uma lista de gêneros.

Segue um script que demonstra essas técnicas:


              123456789101112131415161718
            
import polars as pl

df = pl.DataFrame({
    "name": ["  Alice! ", "Bob.", "  Carol  ", "David-"],
    "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"]
})

# Strip whitespace and symbols from 'name'
cleaned_df = df.with_columns([
    pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean")
])

# Use regex to split genres into a list
cleaned_df = cleaned_df.with_columns([
    pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list")
])

print(cleaned_df)

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 1

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 3. Capítulo 1