Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Nettoyage de texte | Chaînes, Dates, Données Manquantes
Manipulation de Données avec Polars

Nettoyage de texte

Glissez pour afficher le menu

Lors du traitement de données réelles, les colonnes de texte contiennent souvent des espaces indésirables, des symboles superflus ou un formatage incohérent. Avec Polars, il est possible d'utiliser l'espace de noms .str pour nettoyer et transformer efficacement ces colonnes. Supposons que vous disposiez d'un DataFrame avec une colonne name qui inclut parfois des espaces ou de la ponctuation en début ou fin de chaîne, et d'une colonne genres où les genres sont stockés dans une seule chaîne séparée par des barres obliques, comme "Drama / Comedy".

Pour nettoyer la colonne name, utilisez .str.strip_chars() afin de supprimer les espaces et certains symboles aux extrémités de chaque chaîne. Pour la colonne genres, utilisez .str.split() avec une expression régulière pour diviser la chaîne en une liste de genres.

Voici un script illustrant ces techniques :

123456789101112131415161718
import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
question mark

Quelle méthode .str utiliser pour vérifier si une colonne de genres contient le mot « Comedy » ?

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 1

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 3. Chapitre 1
some-alt