Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ テキストクリーニング | 文字列、日付、欠損データ
Polarsによるデータ整形

テキストクリーニング

メニューを表示するにはスワイプしてください

実際のデータを扱う際、テキスト列には不要な空白や余分な記号、不統一な書式が含まれていることがよくあります。Polars では、.str 名前空間を利用して、これらの列を効率的にクリーンアップおよび変換できます。たとえば、name 列には先頭や末尾に空白や句読点が含まれている場合があり、genres 列にはジャンルがスラッシュで区切られた単一の文字列(例:"Drama / Comedy")として格納されていることがあります。

name 列をクリーンアップするには、.str.strip_chars() を使って各文字列の両端から空白や特定の記号を削除できます。genres 列については、正規表現を用いた .str.split() を使い、文字列をジャンルのリストに分割できます。

以下は、これらのテクニックを示すスクリプト例です。

123456789101112131415161718
import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
question mark

ジャンル列に「Comedy」という単語が含まれているかを確認するには、どの .str メソッドを使用しますか?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 3.  1

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 3.  1
some-alt