Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ チャレンジ:重複エントリのフラグ付け | 欠損データおよび重複データの処理
Pythonによるデータクリーニング
セクション 2.  6
single

single

bookチャレンジ:重複エントリのフラグ付け

メニューを表示するにはスワイプしてください

データセット内の重複をフラグ付けすることは、多くのデータクレンジング作業において重要なステップです。これは、単に重複したエントリを削除するのではなく、データ品質を調査または監査する必要がある場合に特に有用です。重複をすぐに削除したくない状況も多く存在します。たとえば、どのレコードが重複しているかを確認してから最適な対応策を決定したい場合や、データ内の重複の発生状況をステークホルダーに報告する必要がある場合などです。重複エントリは、データ入力ミスやシステムの不具合、不正行為の兆候であることもあるため、フラグ付けしておくことでさらなる分析や追跡が可能になります。行が重複しているかどうかを示す列をデータセットに追加することで、元の情報をすべて保持しつつ、後のワークフローで重複パターンを簡単にフィルタリング、集計、可視化できるようになります。

123456789
import pandas as pd data = { "id": [1, 2, 2, 3, 4, 4, 4], "name": ["Alice", "Bob", "Bob", "Charlie", "David", "David", "David"], "score": [85, 90, 90, 95, 80, 80, 80] } df = pd.DataFrame(data) print(df)
copy
タスク

スワイプしてコーディングを開始

データフレームにブール型の列 'is_duplicate' を追加し、同じ行が複数回出現する場合に重複としてマークする関数を作成してください。

  • 関数はデータフレームに新しい列 'is_duplicate' を作成する必要があります。
  • この列は、他の行と重複しているすべての行に対しては True、ユニークな行に対しては False となる必要があります。
  • 返されるデータフレームには、元のすべての列と行が保持されている必要があります。
  • 関数は入力されたデータフレームを直接変更してはいけません。
  • 元のデータフレームを関数内で変更しないことが推奨されます。

解答

Switch to desktop実践的な練習のためにデスクトップに切り替える下記のオプションのいずれかを利用して、現在の場所から続行する
すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 2.  6
single

single

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

some-alt