Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Limpieza de Texto | Cadenas, Fechas, Datos Faltantes
Manipulación de Datos con Polars

Limpieza de Texto

Desliza para mostrar el menú

Al trabajar con datos del mundo real, las columnas de texto suelen contener espacios en blanco no deseados, símbolos adicionales o formatos inconsistentes. En Polars, se puede utilizar el espacio de nombres .str para limpiar y transformar estas columnas de manera eficiente. Supón que tienes un DataFrame con una columna name que a veces incluye espacios en blanco o signos de puntuación al principio o al final, y una columna genres donde los géneros están almacenados como una sola cadena separada por barras, como "Drama / Comedy".

Para limpiar la columna name, se puede usar .str.strip_chars() para eliminar espacios en blanco y símbolos específicos de ambos extremos de cada cadena. Para la columna genres, se puede utilizar .str.split() con una expresión regular para dividir la cadena en una lista de géneros.

A continuación se muestra un script que demuestra estas técnicas:

123456789101112131415161718
import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
question mark

¿Qué método de .str usarías para comprobar si una columna de género contiene la palabra "Comedy"?

Selecciona la respuesta correcta

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 1

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 3. Capítulo 1
some-alt