Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Pulizia del testo | Stringhe, Date, Dati Mancanti
Data Wrangling con Polars

Pulizia del testo

Scorri per mostrare il menu

Quando si lavora con dati reali, le colonne di testo spesso contengono spazi indesiderati, simboli extra o formattazioni incoerenti. In Polars, è possibile utilizzare lo spazio dei nomi .str per pulire ed elaborare in modo efficiente queste colonne. Supponiamo di avere un DataFrame con una colonna name che a volte include spazi all'inizio o alla fine e punteggiatura, e una colonna genres in cui i generi sono memorizzati come una singola stringa separata da barre, come "Drama / Comedy".

Per pulire la colonna name, si può usare .str.strip_chars() per rimuovere spazi e simboli specifici da entrambe le estremità di ogni stringa. Per la colonna genres, si può utilizzare .str.split() con un'espressione regolare per suddividere la stringa in un elenco di generi.

Di seguito uno script che dimostra queste tecniche:

123456789101112131415161718
import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
question mark

Quale metodo .str useresti per verificare se una colonna di generi contiene la parola "Comedy"?

Seleziona la risposta corretta

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 1

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 3. Capitolo 1
some-alt