テキストクリーニング
メニューを表示するにはスワイプしてください
実際のデータを扱う際、テキスト列には不要な空白や余分な記号、不統一な書式が含まれていることがよくあります。Polars では、.str 名前空間を利用して、これらの列を効率的にクリーンアップおよび変換できます。たとえば、name 列には先頭や末尾に空白や句読点が含まれている場合があり、genres 列にはジャンルがスラッシュで区切られた単一の文字列(例:"Drama / Comedy")として格納されていることがあります。
name 列をクリーンアップするには、.str.strip_chars() を使って各文字列の両端から空白や特定の記号を削除できます。genres 列については、正規表現を用いた .str.split() を使い、文字列をジャンルのリストに分割できます。
以下は、これらのテクニックを示すスクリプト例です。
123456789101112131415161718import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
すべて明確でしたか?
フィードバックありがとうございます!
セクション 3. 章 1
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください
セクション 3. 章 1