Aprende Limpieza de Texto | Cadenas, Fechas, Datos Faltantes

Desliza para mostrar el menú

Al trabajar con datos del mundo real, las columnas de texto suelen contener espacios en blanco no deseados, símbolos adicionales o formatos inconsistentes. En Polars, se puede utilizar el espacio de nombres .str para limpiar y transformar estas columnas de manera eficiente. Supón que tienes un DataFrame con una columna name que a veces incluye espacios en blanco o signos de puntuación al principio o al final, y una columna genres donde los géneros están almacenados como una sola cadena separada por barras, como "Drama / Comedy".

Para limpiar la columna name, se puede usar .str.strip_chars() para eliminar espacios en blanco y símbolos específicos de ambos extremos de cada cadena. Para la columna genres, se puede utilizar .str.split() con una expresión regular para dividir la cadena en una lista de géneros.

A continuación se muestra un script que demuestra estas técnicas:


              123456789101112131415161718
            
import polars as pl

df = pl.DataFrame({
    "name": ["  Alice! ", "Bob.", "  Carol  ", "David-"],
    "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"]
})

# Strip whitespace and symbols from 'name'
cleaned_df = df.with_columns([
    pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean")
])

# Use regex to split genres into a list
cleaned_df = cleaned_df.with_columns([
    pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list")
])

print(cleaned_df)

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 1

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 3. Capítulo 1