外れ値とエラーの特定
メニューを表示するにはスワイプしてください
重複を削除した後、次に重要なステップは、データに外れ値やエラーがないか確認することです。
外れ値とは、他のデータから大きく外れている値を指します。必ずしも問題があるとは限りませんが、多くの場合、誤ったデータ入力やインポート時の問題など、何らかの問題を示しています。
一方、エラーとは、データの文脈で明らかに不適切な値です。例えば、異常に大きな数値、本来存在しないはずの負の値、数量と一致しない合計値などが該当します。
簡単な例を見てみましょう:
一見すると問題なさそうに見えますが、よく見るといくつかの値に疑問が生じます。
数量が10であることは文脈によっては妥当かもしれません。しかし、合計値の9999は他と比べて明らかに目立ち、不自然に見えます。
外れ値やエラーを確認しないと、分析結果が大きく歪められる可能性があります。例えば、9999のような誤った値が1つあるだけで、平均値や合計値が偏り、誤った結論につながることがあります。
外れ値の特定方法
ソートも非常に有効な手法です。列を昇順または降順で並べ替えると、極端な値が上部または下部に表示され、確認しやすくなります。
シンプルですが効果的な方法として、**「この値は現実的か?」**と自問することが挙げられます。
ほとんどの値が500から1000の範囲内に収まっているのに、1つだけ9999という値があれば、それは何か問題がある可能性が高く、確認が必要な明確なサインです。
すべての外れ値がエラーとは限らないことを理解することが重要です。時には実際の値である場合もありますが、必ず検証する必要があります。
データを確認し、不審に見える値を特定します。
判断ポイント:
- 期待される範囲外の値
- エラーの可能性がある値
まず、Quantity列では、値10が他のほとんどの値(1や2)と比べて異常に見えます。必ずしもエラーとは限りませんが、確認が必要です。
次に、Total列では、値9999が全体の範囲から明らかに外れています。ほとんどの値が500から4000の間に収まっているため、これはエラーの有力な候補です。
フィードバックありがとうございます!
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください