Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ 外れ値とエラーの特定 | Excelデータのクリーニングと準備
Excelデータクリーニングと準備

外れ値とエラーの特定

メニューを表示するにはスワイプしてください

重複を削除した後、次に重要なステップは、データに外れ値やエラーがないか確認すること。

外れ値とは、他のデータから大きく外れている値。必ずしも問題があるとは限らないが、多くの場合、誤ったデータ入力やインポート時の問題など、何らかの問題を示していることが多い。

一方、エラーはデータの文脈で明らかに不適切な値。例えば、異常に大きな数値、本来存在しないはずの負の値、数量と一致しない合計値などが該当する。

簡単な例を見てみる。

一見すると問題なさそうに見えるが、よく見るといくつかの値に疑問が生じる。

数量10は文脈によっては妥当かもしれないが、合計値9999は他と比べて明らかに目立ち、不自然に見える。

外れ値やエラーを確認しないと、分析結果が大きく歪められる可能性がある。例えば、9999のような誤った値が1つあるだけで、平均値や合計値が偏り、誤った結論につながる。

外れ値の特定方法

並べ替えも非常に有効です。列を昇順または降順で並べ替えると、極端な値が上部または下部に表示され、確認しやすくなります。

シンプルですが効果的な方法として、**「この値は現実的か?」**と自問することが挙げられます。

ほとんどの値が500から1000の範囲内に収まっているのに、1つだけ9999という値があれば、それは何か問題がある可能性が高く、確認が必要な明確なサインです。

すべての外れ値がエラーとは限らないことを理解することが重要です。時には正しい値である場合もありますが、必ず確認する必要があります。

タスク

データを確認し、不審に見える値を特定してください。

判断基準:

  • 期待される範囲外の値
  • エラーの可能性がある値

まず、Quantity 列では、値 10 が他のほとんどの値が 1 または 2 であるため、異常に見えます。必ずしも誤りとは限りませんが、確認が必要です。

次に、Total 列では、値 9999 が全体の範囲から明らかに外れています。ほとんどの値が 500 から 4000 の間に収まっているため、これは誤りの可能性が高いです。

question mark

データセットにおける外れ値とは何ですか?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 1.  15

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 1.  15
some-alt