Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ 外れ値とエラーの特定 | 重複とエラーの削除
Excelでデータをクリーンデータ化

book外れ値とエラーの特定

メニューを表示するにはスワイプしてください

重複を削除した後、次に重要なステップは、データに外れ値やエラーがないか確認することです。

外れ値とは、他のデータから大きく外れている値を指します。必ずしも問題があるとは限りませんが、多くの場合、誤ったデータ入力やインポート時の問題など、何らかの問題を示していることが多いです。

一方、エラーとは、データの文脈上明らかに不適切な値です。例えば、異常に大きな数値、本来存在しないはずの負の値、数量と一致しない合計などが該当します。

簡単な例を見てみましょう:

Product

Quantity

Total

Phone

2

800

Phone

10

4000

Laptop

1

9999

一見すると問題なさそうに見えますが、よく見るといくつかの値に疑問が生じます。

数量が10であることは文脈によっては妥当かもしれません。しかし、合計値の9999は他と比べて明らかに目立ち、不自然に見えます。

外れ値やエラーを確認しないと、分析結果が大きく歪められる可能性があります。例えば、9999のような誤った値が1つあるだけで、平均値や合計値が大きくずれ、誤った結論につながることがあります。

外れ値の特定方法

並べ替えも非常に有効な方法。列を昇順または降順で並べ替えると、極端な値が上部または下部に表示され、確認しやすくなる。

シンプルだが効果的なアプローチは、**「この値は現実的に見えるか?」**と自問すること。

ほとんどの値が500から1000の範囲内に収まっている場合に、9999という値があれば、それは何か問題がある可能性が高く、確認が必要な明確なサイン。

すべての外れ値がエラーとは限らないことを理解することが重要。時には正しい値である場合もあるが、必ず検証が必要。

データを確認し、不審に見える値を特定。

判断ポイント:

  • 期待される範囲外の値
  • エラーの可能性がある値

まず、Quantity列では、値10が他のほとんどの値が1または2であることから、異常に見える。必ずしもエラーとは限らないが、確実に検証が必要。

次に、Total列では、値9999が全体の範囲から明らかに外れている。ほとんどの値が500から4000の間に収まっているため、これはエラーの有力な候補。

question mark

データセットにおける外れ値とは何か?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 4.  2

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 4.  2
some-alt