Ermittlung von Ausreißern in der Statistik

Ausreißer sind Datenwerte, die sich stark von den meisten Daten unterscheiden. Diese Werte liegen außerhalb eines Gesamttrends, der in den Daten vorhanden ist. Eine sorgfältige Prüfung eines Datensatzes auf Ausreißer verursacht einige Schwierigkeiten. Obwohl es leicht zu erkennen ist, möglicherweise unter Verwendung eines Stemplots, dass sich einige Werte von den übrigen Daten unterscheiden, wie stark muss der Wert sein, um als Ausreißer betrachtet zu werden? Wir werden uns eine spezifische Messung ansehen, die uns einen objektiven Standard dafür gibt, was einen Ausreißer ausmacht.

Interquartilbereich

Das Interquartilbereich können wir verwenden, um festzustellen, ob ein Extremwert tatsächlich ein Ausreißer ist. Der Interquartilbereich basiert auf einem Teil des Zusammenfassung mit fünf Zahlen eines Datensatzes, nämlich der erstes Quartil und drittes Quartil. Die Berechnung des Interquartilbereichs umfasst eine einzelne arithmetische Operation. Alles, was wir tun müssen, um den Interquartilbereich zu finden, ist, das erste Quartil vom dritten Quartil zu subtrahieren. Der resultierende Unterschied zeigt uns, wie verteilt die mittlere Hälfte unserer Daten ist.

instagram viewer

Ausreißer ermitteln

Durch Multiplizieren des Interquartilbereichs (IQR) mit 1,5 können wir feststellen, ob ein bestimmter Wert ein Ausreißer ist. Wenn wir 1,5 x IQR vom ersten Quartil abziehen, werden alle Datenwerte, die unter dieser Zahl liegen, als Ausreißer betrachtet. Wenn wir dem dritten Quartil 1,5 x IQR hinzufügen, werden alle Datenwerte, die größer als diese Zahl sind, als Ausreißer betrachtet.

Starke Ausreißer

Einige Ausreißer weisen extreme Abweichungen vom Rest eines Datensatzes auf. In diesen Fällen können wir die Schritte von oben ausführen, indem wir nur die Zahl ändern, mit der wir den IQR multiplizieren, und einen bestimmten Ausreißertyp definieren. Wenn wir 3,0 x IQR vom ersten Quartil abziehen, wird jeder Punkt, der unter dieser Zahl liegt, als starker Ausreißer bezeichnet. Auf die gleiche Weise können wir durch Hinzufügen von 3,0 x IQR zum dritten Quartil starke Ausreißer definieren, indem wir Punkte betrachten, die größer als diese Zahl sind.

Schwache Ausreißer

Neben starken Ausreißern gibt es eine weitere Kategorie für Ausreißer. Wenn ein Datenwert ein Ausreißer ist, aber kein starker Ausreißer, dann sagen wir, dass der Wert ein schwacher Ausreißer ist. Wir werden diese Konzepte anhand einiger Beispiele betrachten.

Beispiel 1

Nehmen wir zunächst an, wir haben den Datensatz {1, 2, 2, 3, 3, 4, 5, 5, 9}. Die Nummer 9 scheint sicherlich ein Ausreißer zu sein. Es ist viel größer als jeder andere Wert aus dem Rest des Satzes. Um objektiv festzustellen, ob 9 ein Ausreißer ist, verwenden wir die oben genannten Methoden. Das erste Quartil ist 2 und das dritte Quartil ist 5, was bedeutet, dass der Interquartilbereich 3 ist. Wir multiplizieren den Interquartilbereich mit 1,5, erhalten 4,5 und addieren diese Zahl dann zum dritten Quartil. Das Ergebnis 9.5 ist größer als alle unsere Datenwerte. Daher gibt es keine Ausreißer.

Beispiel 2

Jetzt betrachten wir denselben Datensatz wie zuvor, mit der Ausnahme, dass der größte Wert 10 statt 9 ist: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Das erste Quartil, das dritte Quartil und der Interquartilbereich sind identisch mit Beispiel 1. Wenn wir dem dritten Quartil 1,5 x IQR = 4,5 hinzufügen, beträgt die Summe 9,5. Da 10 größer als 9,5 ist, wird es als Ausreißer betrachtet.

Ist 10 ein starker oder schwacher Ausreißer? Dazu müssen wir uns 3 x IQR = 9 ansehen. Wenn wir 9 zum dritten Quartil addieren, erhalten wir eine Summe von 14. Da 10 nicht größer als 14 ist, ist es kein starker Ausreißer. Wir schließen daraus, dass 10 ein schwacher Ausreißer ist.

Gründe für die Identifizierung von Ausreißern

Wir müssen immer nach Ausreißern Ausschau halten. Manchmal werden sie durch einen Fehler verursacht. In anderen Fällen weisen Ausreißer auf das Vorhandensein eines zuvor unbekannten Phänomens hin. Ein weiterer Grund, warum wir fleißig nach Ausreißern suchen müssen, ist all das beschreibende Statistik die empfindlich auf Ausreißer reagieren. Der Mittelwert, Standardabweichung und Korrelationskoeffizient für gepaarte Daten sind nur einige dieser Arten von Statistiken.