Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ 外れ値とエラーの特定 | セクション
データクリーニング&準備

外れ値とエラーの特定

メニューを表示するにはスワイプしてください

重複を削除した後、次に重要なステップは、データに外れ値やエラーがないか確認することです。

外れ値とは、他のデータから大きく外れている値を指します。必ずしも問題があるとは限りませんが、多くの場合、誤ったデータ入力やインポート時の問題など、何らかの問題を示しています。

一方、エラーとは、データの文脈で明らかに不適切な値です。例えば、異常に大きな数値、本来存在しないはずの負の値、数量と一致しない合計値などが該当します。

簡単な例を見てみましょう:

一見すると問題なさそうに見えますが、よく見るといくつかの値に疑問が生じます。

数量が10であることは文脈によっては妥当かもしれません。しかし、合計値の9999は他と比べて明らかに目立ち、不自然に見えます。

外れ値やエラーを確認しないと、分析結果が大きく歪められる可能性があります。例えば、9999のような誤った値が1つあるだけで、平均値や合計値が偏り、誤った結論につながることがあります。

外れ値の特定方法

ソートも非常に有効な手法です。列を昇順または降順で並べ替えると、極端な値が上部または下部に表示され、確認しやすくなります。

シンプルですが効果的な方法として、**「この値は現実的か?」**と自問することが挙げられます。

ほとんどの値が500から1000の範囲内に収まっているのに、1つだけ9999という値があれば、それは何か問題がある可能性が高く、確認が必要な明確なサインです。

すべての外れ値がエラーとは限らないことを理解することが重要です。時には実際の値である場合もありますが、必ず検証する必要があります。

データを確認し、不審に見える値を特定します。

判断ポイント:

  • 期待される範囲外の値
  • エラーの可能性がある値

まず、Quantity列では、値10が他のほとんどの値(12)と比べて異常に見えます。必ずしもエラーとは限りませんが、確認が必要です。

次に、Total列では、値9999が全体の範囲から明らかに外れています。ほとんどの値が500から4000の間に収まっているため、これはエラーの有力な候補です。

question mark

データセットにおける外れ値とは何か?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 1.  12

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 1.  12
some-alt