Ausreißer und Fehler Identifizieren
Swipe um das Menü anzuzeigen
Nachdem Duplikate entfernt wurden, besteht der nächste wichtige Schritt darin, die Daten auf Ausreißer und Fehler zu überprüfen.
Ausreißer sind Werte, die deutlich aus dem übrigen Datenbestand herausstechen. Sie bedeuten nicht immer, dass etwas falsch ist, deuten jedoch sehr häufig auf ein Problem hin, wie zum Beispiel eine fehlerhafte Dateneingabe oder einen Fehler beim Import.
Fehler hingegen sind Werte, die im Kontext der Daten eindeutig keinen Sinn ergeben. Beispiele hierfür sind ungewöhnlich hohe Zahlen, negative Werte an unzulässigen Stellen oder Summen, die nicht zur Menge passen.
Hier ein einfaches Beispiel:
Product | Quantity | Total |
|---|---|---|
Phone | 2 | 800 |
Phone | 10 | 4000 |
Laptop | 1 | 9999 |
Auf den ersten Blick sieht alles in Ordnung aus, doch bei genauerem Hinsehen werfen einige Werte Fragen auf.
Die Menge von 10 könnte gültig sein, das hängt jedoch vom Kontext ab. Der Gesamtwert von 9999 hingegen fällt im Vergleich zu den anderen deutlich auf und wirkt verdächtig.
Werden Ausreißer und Fehler nicht überprüft, können sie die Analyse erheblich verfälschen. Ein einziger fehlerhafter Wert wie 9999 kann beispielsweise Durchschnittswerte oder Summen verzerren und zu falschen Schlussfolgerungen führen.
Wie man Ausreißer identifiziert
Sortieren ist ebenfalls sehr hilfreich. Wenn Sie eine Spalte aufsteigend oder absteigend sortieren, erscheinen die Extremwerte oben oder unten und lassen sich leicht überprüfen.
Ein einfacher, aber effektiver Ansatz ist, sich zu fragen: "Sieht dieser Wert realistisch aus?"
Wenn die meisten Werte in einem bestimmten Bereich liegen, zum Beispiel 500 bis 1000, und ein Wert ist 9999, ist das ein deutliches Signal, dass etwas nicht stimmt und überprüft werden sollte.
Es ist wichtig zu verstehen, dass nicht jeder Ausreißer ein Fehler ist. Manchmal handelt es sich um einen echten Wert, aber er sollte immer überprüft werden.
Daten überprüfen und Werte identifizieren, die verdächtig erscheinen.
Feststellen:
- Welche Werte außerhalb des erwarteten Bereichs liegen;
- Welche Werte möglicherweise Fehler sind.
Zuerst fällt in der Spalte Quantity der Wert 10 auf, da die meisten anderen Werte 1 oder 2 sind. Es muss nicht unbedingt ein Fehler sein, sollte aber auf jeden Fall überprüft werden.
Zweitens fällt in der Spalte Total der Wert 9999 deutlich aus dem Gesamtrahmen, da die meisten Werte ungefähr zwischen 500 und 4000 liegen. Dies ist ein starker Hinweis auf einen möglichen Fehler.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen