Impara Pulizia del testo | Stringhe, Date, Dati Mancanti

Scorri per mostrare il menu

Quando si lavora con dati reali, le colonne di testo spesso contengono spazi indesiderati, simboli extra o formattazioni incoerenti. In Polars, è possibile utilizzare lo spazio dei nomi .str per pulire ed elaborare in modo efficiente queste colonne. Supponiamo di avere un DataFrame con una colonna name che a volte include spazi all'inizio o alla fine e punteggiatura, e una colonna genres in cui i generi sono memorizzati come una singola stringa separata da barre, come "Drama / Comedy".

Per pulire la colonna name, si può usare .str.strip_chars() per rimuovere spazi e simboli specifici da entrambe le estremità di ogni stringa. Per la colonna genres, si può utilizzare .str.split() con un'espressione regolare per suddividere la stringa in un elenco di generi.

Di seguito uno script che dimostra queste tecniche:


              123456789101112131415161718
            
import polars as pl

df = pl.DataFrame({
    "name": ["  Alice! ", "Bob.", "  Carol  ", "David-"],
    "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"]
})

# Strip whitespace and symbols from 'name'
cleaned_df = df.with_columns([
    pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean")
])

# Use regex to split genres into a list
cleaned_df = cleaned_df.with_columns([
    pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list")
])

print(cleaned_df)

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 1

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 3. Capitolo 1