Apprendre Nettoyage de texte | Chaînes, Dates, Données Manquantes

Glissez pour afficher le menu

Lors du traitement de données réelles, les colonnes de texte contiennent souvent des espaces indésirables, des symboles superflus ou un formatage incohérent. Avec Polars, il est possible d'utiliser l'espace de noms .str pour nettoyer et transformer efficacement ces colonnes. Supposons que vous disposiez d'un DataFrame avec une colonne name qui inclut parfois des espaces ou de la ponctuation en début ou fin de chaîne, et d'une colonne genres où les genres sont stockés dans une seule chaîne séparée par des barres obliques, comme "Drama / Comedy".

Pour nettoyer la colonne name, utilisez .str.strip_chars() afin de supprimer les espaces et certains symboles aux extrémités de chaque chaîne. Pour la colonne genres, utilisez .str.split() avec une expression régulière pour diviser la chaîne en une liste de genres.

Voici un script illustrant ces techniques :


              123456789101112131415161718
            
import polars as pl

df = pl.DataFrame({
    "name": ["  Alice! ", "Bob.", "  Carol  ", "David-"],
    "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"]
})

# Strip whitespace and symbols from 'name'
cleaned_df = df.with_columns([
    pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean")
])

# Use regex to split genres into a list
cleaned_df = cleaned_df.with_columns([
    pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list")
])

print(cleaned_df)

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 1

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 3. Chapitre 1