Formelverknüpfung für die Summe der Quadrate

click fraud protection

Die Berechnung von a Stichprobe Varianz oder Standardabweichung wird typischerweise als Bruch angegeben. Der Zähler dieses Bruchs beinhaltet eine Summe der quadratischen Abweichungen vom Mittelwert. In der Statistiklautet die Formel für diese Gesamtsumme der Quadrate

Σ (xich - x̄)2

Hier bezieht sich das Symbol x̄ auf den Stichprobenmittelwert, und das Symbol Σ sagt uns, dass wir die quadratischen Differenzen (x) addieren sollenich - x̄) für alle ich.

Während diese Formel für Berechnungen funktioniert, gibt es eine äquivalente Verknüpfungsformel, für die wir nicht zuerst die berechnen müssen Stichprobenmittelwert. Diese Abkürzungsformel für die Summe der Quadrate lautet

Σ (xich2) - (Σ xich)2/n

Hier die Variable n bezieht sich auf die Anzahl der Datenpunkte in unserer Stichprobe.

Beispiel für eine Standardformel

Um zu sehen, wie diese Verknüpfungsformel funktioniert, betrachten wir ein Beispiel, das mit beiden Formeln berechnet wird. Angenommen, unsere Stichprobe ist 2, 4, 6, 8. Der Stichprobenmittelwert beträgt (2 + 4 + 6 + 8) / 4 = 20/4 = 5. Nun berechnen wir die Differenz jedes Datenpunktes mit dem Mittelwert 5.

instagram viewer

  • 2 – 5 = -3
  • 4 – 5 = -1
  • 6 – 5 = 1
  • 8 – 5 = 3

Wir quadrieren nun jede dieser Zahlen und addieren sie. (-3)2 + (-1)2 + 12 + 32 = 9 + 1 + 1 + 9 = 20.

Beispiel für eine Abkürzungsformel

Jetzt verwenden wir denselben Datensatz: 2, 4, 6, 8 mit der Verknüpfungsformel, um die Summe der Quadrate zu bestimmen. Wir quadrieren zuerst jeden Datenpunkt und addieren sie: 22 + 42 + 62 + 82 = 4 + 16 + 36 + 64 = 120.

Der nächste Schritt besteht darin, alle Daten zu addieren und diese Summe zu quadrieren: (2 + 4 + 6 + 8)2 = 400. Wir teilen dies durch die Anzahl der Datenpunkte, um 400/4 = 100 zu erhalten.

Wir subtrahieren nun diese Zahl von 120. Dies gibt uns, dass die Summe der quadratischen Abweichungen 20 ist. Dies war genau die Zahl, die wir bereits aus der anderen Formel gefunden haben.

Wie funktioniert das?

Viele Leute akzeptieren die Formel nur zum Nennwert und haben keine Ahnung, warum diese Formel funktioniert. Mit ein wenig Algebra können wir sehen, warum diese Verknüpfungsformel der traditionellen Standardmethode zur Berechnung der Summe der quadratischen Abweichungen entspricht.

Obwohl es in einem realen Datensatz Hunderte, wenn nicht Tausende von Werten geben kann, gehen wir davon aus, dass es nur drei Datenwerte gibt: x1, x2, x3. Was wir hier sehen, könnte auf einen Datensatz mit Tausenden von Punkten erweitert werden.

Wir beginnen damit, dass (x1 + x2 + x3) = 3 x̄. Der Ausdruck Σ (xich - x̄)2 = (x1 - x̄)2 + (x2 - x̄)2 + (x3 - x̄)2.

Wir verwenden nun die Tatsache aus der Grundalgebra, dass (a + b)2 = a2 + 2ab + b2. Dies bedeutet, dass (x1 - x̄)2 = x12 -2x1 x̄ + x̄2. Wir tun dies für die beiden anderen Begriffe unserer Summierung und haben:

x12 -2x1 x̄ + x̄2 + x22 -2x2 x̄ + x̄2 + x32 -2x3 x̄ + x̄2.

Wir ordnen dies neu und haben:

x12+ x22 + x32+ 3x̄2 - 2x̄ (x1 + x2 + x3) .

Durch Umschreiben (x1 + x2 + x3) = 3x̄ das Obige wird:

x12+ x22 + x32 - 3x̄2.

Jetzt seit 3x̄2 = (x1+ x2 + x3)2/ 3, unsere Formel lautet:

x12+ x22 + x32 - (x1+ x2 + x3)2/3

Und dies ist ein Sonderfall der oben erwähnten allgemeinen Formel:

Σ (xich2) - (Σ xich)2/n

Ist es wirklich eine Abkürzung?

Es scheint nicht so, als wäre diese Formel wirklich eine Abkürzung. Schließlich scheint es im obigen Beispiel genauso viele Berechnungen zu geben. Ein Teil davon hat damit zu tun, dass wir uns nur eine kleine Stichprobengröße angesehen haben.

Wenn wir die Größe unserer Stichprobe erhöhen, sehen wir, dass die Verknüpfungsformel die Anzahl der Berechnungen um etwa die Hälfte reduziert. Wir müssen nicht den Mittelwert von jedem Datenpunkt subtrahieren und dann das Ergebnis quadrieren. Dies reduziert die Gesamtzahl der Operationen erheblich.

instagram story viewer