Was ist Schiefe in der Statistik?

Einige Datenverteilungen, wie z Glockenkurve oder Normalverteilungsind symmetrisch. Dies bedeutet, dass rechts und links von der Verteilung perfekte Spiegelbilder voneinander sind. Nicht jede Datenverteilung ist symmetrisch. Datensätze, die nicht symmetrisch sind, werden als asymmetrisch bezeichnet. Das Maß dafür, wie asymmetrisch eine Verteilung sein kann, wird als Schiefe bezeichnet.

Der Mittelwert, der Median und der Modus sind alle Maßnahmen des Zentrums eines Datensatzes. Die Schiefe der Daten kann dadurch bestimmt werden, wie diese Größen zueinander in Beziehung stehen.

Nach rechts geneigt

Daten, die nach rechts geneigt sind, haben einen langen Schwanz, der sich nach rechts erstreckt. Eine alternative Möglichkeit, über einen nach rechts verzerrten Datensatz zu sprechen, besteht darin, zu sagen, dass er positiv verzerrt ist. In dieser Situation sind der Mittelwert und der Median sind beide größer als der Modus. In der Regel ist der Mittelwert für Daten, die nach rechts verschoben sind, meistens größer als der Median. Zusammenfassend für einen nach rechts geneigten Datensatz:

instagram viewer
  • Immer: Mittelwert größer als der Modus
  • Immer: Median größer als der Modus
  • Meistens: Mittelwert größer als Median

Nach links geneigt

Die Situation kehrt sich um, wenn wir uns mit nach links verzerrten Daten befassen. Daten, die nach links verschoben sind, haben einen langen Schwanz, der sich nach links erstreckt. Eine alternative Möglichkeit, über einen nach links geneigten Datensatz zu sprechen, besteht darin, zu sagen, dass er negativ verzerrt ist. In dieser Situation sind sowohl der Mittelwert als auch der Median kleiner als der Modus. In der Regel liegt der Mittelwert für Daten, die nach links verschoben sind, meistens unter dem Median. Zusammenfassend für einen nach links geneigten Datensatz:

  • Immer: weniger bedeuten als der Modus
  • Immer: Median kleiner als der Modus
  • Meistens: Mittelwert weniger als der Median

Maße der Schiefe

Es ist eine Sache, zwei Datensätze zu betrachten und festzustellen, dass einer symmetrisch und der andere asymmetrisch ist. Es ist eine andere Sache, zwei Sätze asymmetrischer Daten zu betrachten und zu sagen, dass einer stärker verzerrt ist als der andere. Es kann sehr subjektiv sein, durch einfaches Betrachten des Diagramms der Verteilung zu bestimmen, welches stärker verzerrt ist. Aus diesem Grund gibt es Möglichkeiten, das Maß für die Schiefe numerisch zu berechnen.

Ein Maß für die Schiefe, das als Pearsons erster Schiefheitskoeffizient bezeichnet wird, besteht darin, den Mittelwert vom Modus zu subtrahieren und diese Differenz dann durch die zu dividieren Standardabweichung der Daten. Der Grund für die Aufteilung der Differenz ist, dass wir eine dimensionslose Größe haben. Dies erklärt, warum nach rechts verzerrte Daten eine positive Schiefe aufweisen. Wenn der Datensatz nach rechts verschoben ist, ist der Mittelwert größer als der Modus. Wenn Sie also den Modus vom Mittelwert abziehen, erhalten Sie eine positive Zahl. Ein ähnliches Argument erklärt, warum nach links geneigte Daten eine negative Schiefe aufweisen.

Der zweite Skewness-Koeffizient von Pearson wird auch verwendet, um die Asymmetrie eines Datensatzes zu messen. Für diese Größe subtrahieren wir den Modus vom Median, multiplizieren diese Zahl mit drei und dividieren dann durch die Standardabweichung.

Anwendungen von verzerrten Daten

Verzerrte Daten entstehen in verschiedenen Situationen ganz natürlich. Die Einkommen sind nach rechts verschoben, da selbst wenige Personen, die Millionen von Dollar verdienen, den Mittelwert stark beeinflussen können und es keine negativen Einkommen gibt. In ähnlicher Weise werden Daten zur Lebensdauer eines Produkts, z. B. einer Glühbirnenmarke, nach rechts verschoben. Hier ist das kleinste, was eine Lebensdauer sein kann, Null, und langlebige Glühbirnen verleihen den Daten eine positive Schiefe.