Nettoyage de texte
Glissez pour afficher le menu
Lors du traitement de données réelles, les colonnes de texte contiennent souvent des espaces indésirables, des symboles superflus ou un formatage incohérent. Avec Polars, il est possible d'utiliser l'espace de noms .str pour nettoyer et transformer efficacement ces colonnes. Supposons que vous disposiez d'un DataFrame avec une colonne name qui inclut parfois des espaces ou de la ponctuation en début ou fin de chaîne, et d'une colonne genres où les genres sont stockés dans une seule chaîne séparée par des barres obliques, comme "Drama / Comedy".
Pour nettoyer la colonne name, utilisez .str.strip_chars() afin de supprimer les espaces et certains symboles aux extrémités de chaque chaîne. Pour la colonne genres, utilisez .str.split() avec une expression régulière pour diviser la chaîne en une liste de genres.
Voici un script illustrant ces techniques :
123456789101112131415161718import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion