外れ値とエラーの特定
メニューを表示するにはスワイプしてください
重複を削除した後、次に重要なステップは、データに外れ値やエラーがないか確認することです。
外れ値とは、他のデータから大きく外れている値を指します。必ずしも問題があるとは限りませんが、多くの場合、誤ったデータ入力やインポート時の問題など、何らかの問題を示していることが多いです。
一方、エラーとは、データの文脈上明らかに不適切な値です。例えば、異常に大きな数値、本来存在しないはずの負の値、数量と一致しない合計などが該当します。
簡単な例を見てみましょう:
Product | Quantity | Total |
|---|---|---|
Phone | 2 | 800 |
Phone | 10 | 4000 |
Laptop | 1 | 9999 |
一見すると問題なさそうに見えますが、よく見るといくつかの値に疑問が生じます。
数量が10であることは文脈によっては妥当かもしれません。しかし、合計値の9999は他と比べて明らかに目立ち、不自然に見えます。
外れ値やエラーを確認しないと、分析結果が大きく歪められる可能性があります。例えば、9999のような誤った値が1つあるだけで、平均値や合計値が大きくずれ、誤った結論につながることがあります。
外れ値の特定方法
並べ替えも非常に有効な方法。列を昇順または降順で並べ替えると、極端な値が上部または下部に表示され、確認しやすくなる。
シンプルだが効果的なアプローチは、**「この値は現実的に見えるか?」**と自問すること。
ほとんどの値が500から1000の範囲内に収まっている場合に、9999という値があれば、それは何か問題がある可能性が高く、確認が必要な明確なサイン。
すべての外れ値がエラーとは限らないことを理解することが重要。時には正しい値である場合もあるが、必ず検証が必要。
データを確認し、不審に見える値を特定。
判断ポイント:
- 期待される範囲外の値
- エラーの可能性がある値
まず、Quantity列では、値10が他のほとんどの値が1または2であることから、異常に見える。必ずしもエラーとは限らないが、確実に検証が必要。
次に、Total列では、値9999が全体の範囲から明らかに外れている。ほとんどの値が500から4000の間に収まっているため、これはエラーの有力な候補。
フィードバックありがとうございます!
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください