Ausreißer und Fehler Identifizieren
Swipe um das Menü anzuzeigen
Nach dem Entfernen von Duplikaten besteht der nächste wichtige Schritt darin, die Daten auf Ausreißer und Fehler zu überprüfen.
Ausreißer sind Werte, die sich deutlich vom Rest der Daten abheben. Sie bedeuten nicht immer, dass etwas falsch ist, deuten jedoch sehr häufig auf ein Problem hin, wie beispielsweise eine fehlerhafte Dateneingabe oder einen Fehler beim Import.
Fehler hingegen sind Werte, die im Kontext der Daten eindeutig keinen Sinn ergeben. Zum Beispiel eine ungewöhnlich große Zahl, ein negativer Wert, wo keiner existieren sollte, oder eine Gesamtsumme, die nicht zur Menge passt.
Betrachten wir ein einfaches Beispiel:
Auf den ersten Blick sieht alles in Ordnung aus, aber bei genauerem Hinsehen werfen einige Werte Fragen auf.
Die Menge von 10 könnte gültig sein, das hängt jedoch vom Kontext ab. Der Gesamtwert von 9999 hingegen fällt im Vergleich zu den anderen deutlich auf und wirkt verdächtig.
Wenn Ausreißer und Fehler nicht überprüft werden, können sie die Analyse erheblich verfälschen. Ein einziger falscher Wert wie 9999 kann beispielsweise Durchschnittswerte oder Summen verzerren und zu falschen Schlussfolgerungen führen.
Wie man Ausreißer identifiziert
Sortieren ist ebenfalls sehr hilfreich. Wenn Sie eine Spalte aufsteigend oder absteigend sortieren, erscheinen die Extremwerte oben oder unten und lassen sich so leicht überprüfen.
Ein einfacher, aber effektiver Ansatz ist, sich zu fragen: „Sieht dieser Wert realistisch aus?“
Wenn die meisten Werte in einem bestimmten Bereich liegen, zum Beispiel 500 bis 1000, und ein Wert ist 9999, ist das ein deutliches Signal, dass etwas nicht stimmt und überprüft werden sollte.
Es ist wichtig zu verstehen, dass nicht jeder Ausreißer ein Fehler ist. Manchmal handelt es sich um einen echten Wert, aber er sollte immer überprüft werden.
Aufgabe
Überprüfen Sie die Daten und identifizieren Sie Werte, die verdächtig erscheinen.
Bestimmen Sie:
- Welche Werte außerhalb des erwarteten Bereichs liegen;
- Welche Werte möglicherweise Fehler sind.
Zunächst fällt in der Spalte Quantity der Wert 10 auf, da die meisten anderen Werte 1 oder 2 sind. Es muss sich dabei nicht zwingend um einen Fehler handeln, aber eine Überprüfung ist auf jeden Fall erforderlich.
Zweitens sticht in der Spalte Total der Wert 9999 deutlich aus dem Gesamtspektrum hervor, da die meisten Werte ungefähr zwischen 500 und 4000 liegen. Dies ist ein starker Hinweis auf einen möglichen Fehler.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen