Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Tekstin Puhdistus | Merkkijonot, päivämäärät, puuttuvat tiedot
Datan Käsittely Polarsilla

Tekstin Puhdistus

Pyyhkäise näyttääksesi valikon

Työskenneltäessä reaalimaailman datan kanssa tekstisarakkeet sisältävät usein ei-toivottuja välilyöntejä, ylimääräisiä symboleja tai epäyhtenäistä muotoilua. Polarissa voit käyttää .str-nimialuetta puhdistaaksesi ja muuntaaksesi näitä sarakkeita tehokkaasti. Oletetaan, että sinulla on DataFrame, jossa on name-sarake, joka sisältää joskus alussa tai lopussa välilyöntejä ja välimerkkejä, sekä genres-sarake, jossa genret on tallennettu yhtenä merkkijonona kauttaviivalla eroteltuna, kuten "Drama / Comedy".

name-sarakkeen puhdistamiseen voit käyttää .str.strip_chars()-metodia poistaaksesi välilyönnit ja tietyt symbolit merkkijonon molemmista päistä. genres-sarakkeessa voit käyttää .str.split()-metodia yhdessä säännöllisen lausekkeen kanssa jakaaksesi merkkijonon genrejen listaksi.

Alla oleva skripti havainnollistaa näitä tekniikoita:

123456789101112131415161718
import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
question mark

Mitä .str-metodia käyttäisit tarkistaaksesi, sisältääkö genre-sarake sanan "Comedy"?

Valitse oikea vastaus

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 3. Luku 1
some-alt