Pulizia del testo
Scorri per mostrare il menu
Quando si lavora con dati reali, le colonne di testo spesso contengono spazi indesiderati, simboli extra o formattazioni incoerenti. In Polars, è possibile utilizzare lo spazio dei nomi .str per pulire ed elaborare in modo efficiente queste colonne. Supponiamo di avere un DataFrame con una colonna name che a volte include spazi all'inizio o alla fine e punteggiatura, e una colonna genres in cui i generi sono memorizzati come una singola stringa separata da barre, come "Drama / Comedy".
Per pulire la colonna name, si può usare .str.strip_chars() per rimuovere spazi e simboli specifici da entrambe le estremità di ogni stringa. Per la colonna genres, si può utilizzare .str.split() con un'espressione regolare per suddividere la stringa in un elenco di generi.
Di seguito uno script che dimostra queste tecniche:
123456789101112131415161718import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione