Limpeza de Texto
Deslize para mostrar o menu
Ao trabalhar com dados do mundo real, colunas de texto frequentemente contêm espaços em branco indesejados, símbolos extras ou formatação inconsistente. No Polars, é possível utilizar o namespace .str para limpar e transformar essas colunas de forma eficiente. Suponha que você tenha um DataFrame com uma coluna name que, às vezes, inclui espaços em branco ou pontuação no início ou no final, e uma coluna genres onde os gêneros estão armazenados como uma única string separada por barras, como "Drama / Comedy".
Para limpar a coluna name, pode-se usar .str.strip_chars() para remover espaços em branco e símbolos específicos das extremidades de cada string. Para a coluna genres, é possível utilizar .str.split() com uma expressão regular para dividir a string em uma lista de gêneros.
Segue um script que demonstra essas técnicas:
123456789101112131415161718import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo