Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ チャレンジ:テキストの大文字・小文字の標準化 | データクリーニングの基礎
Pythonによるデータクリーニング
セクション 1.  6
single

single

bookチャレンジ:テキストの大文字・小文字の標準化

メニューを表示するにはスワイプしてください

一貫したテキストの書式設定は、信頼性の高いデータ分析やグループ化に不可欠です。テキストデータに大文字、小文字、または頭文字が大文字の単語が混在している場合、グループ化や比較の操作で誤った結果が生じることがあります。例えば、"Apple""apple""APPLE" はすべて同じ値を指している可能性がありますが、標準化されていないと別々のエントリとして扱われます。列内のすべてのテキスト値を同じ大文字・小文字に統一することで、グループ化や集計が簡単になり、エラーが減少し、データの取り扱いが容易になります。

12345678
import pandas as pd data = { "fruit": ["Apple", "banana", "ORANGE", "apple", "Banana", "orange"], "quantity": [5, 3, 4, 2, 1, 6] } df = pd.DataFrame(data) print(df)
copy

一貫性のためのテキストの頭文字大文字化

もう一つ有用な方法として、テキストを頭文字のみ大文字、残りを小文字に変換する方法があります。このスタイルは名前やタイトルによく使われます。pandas の str.capitalize() メソッドを使用して実現できます。例えば:

import pandas as pd

data = {
    "fruit": ["Apple", "banana", "ORANGE", "apple", "Banana", "orange"],
    "quantity": [5, 3, 4, 2, 1, 6]
}
df = pd.DataFrame(data)
df["fruit"] = df["fruit"].str.capitalize()
print(df)

このコードの出力は次のようになります:

    fruit  quantity
0   Apple         5
1  Banana         3
2  Orange         4
3   Apple         2
4  Banana         1
5  Orange         6

str.capitalize() を使うことで、各エントリの先頭文字が大文字になり、データをプレゼンテーション用に整形したり、特定のフォーマットに合わせたりする際に役立ちます。

123456789101112
import pandas as pd data = { "fruit": ["Apple", "banana", "ORANGE", "apple", "Banana", "orange"], "quantity": [5, 3, 4, 2, 1, 6] } df = pd.DataFrame(data) # Standardize text case using str.capitalize() df_capitalized = df.copy() df_capitalized["fruit"] = df_capitalized["fruit"].str.capitalize() print(df_capitalized)
copy
タスク

スワイプしてコーディングを開始

指定したDataFrameの列内のすべての値を小文字に標準化する関数の作成。関数は、指定された列の値のみを小文字に変換し、他の列は変更せずに新しいDataFrameを返すこと。

解答

Switch to desktop実践的な練習のためにデスクトップに切り替える下記のオプションのいずれかを利用して、現在の場所から続行する
すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 1.  6
single

single

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

some-alt