Beim Betrachten eines Streudiagramms sind viele Fragen zu stellen. Eine der häufigsten Fragen ist die Frage, wie gut sich eine gerade Linie den Daten annähert. Um dies zu beantworten, gibt es eine beschreibende Statistik, die als Korrelationskoeffizient bezeichnet wird. Wir werden sehen, wie diese Statistik berechnet wird.
Der Korrelationskoeffizient
Das Korrelationskoeffizient, bezeichnet durch r, sagt uns, wie genau Daten in einem Streudiagramm fallen entlang einer geraden Linie. Je näher das der absolute Wert von r ist zu eins, desto besser, dass die Daten durch eine lineare Gleichung beschrieben werden. Wenn r = 1 oder r = -1 dann ist der Datensatz perfekt ausgerichtet. Datensätze mit Werten von r nahe Null zeigen wenig bis keine geradlinige Beziehung.
Aufgrund der langwierigen Berechnungen ist es am besten zu berechnen r mit einem Taschenrechner oder einer Statistiksoftware. Es lohnt sich jedoch immer zu wissen, was Ihr Rechner beim Rechnen tut. Was folgt, ist ein Prozess zum Berechnen des Korrelationskoeffizienten hauptsächlich von Hand, wobei ein Rechner für die routinemäßigen arithmetischen Schritte verwendet wird.
Berechnungsschritte r
Wir beginnen mit der Auflistung der Schritte zur Berechnung des Korrelationskoeffizienten. Die Daten, mit denen wir arbeiten, sind gepaarte Daten, von denen jedes Paar mit (xichyich).
- Wir beginnen mit einigen vorläufigen Berechnungen. Die Mengen aus diesen Berechnungen werden in nachfolgenden Schritten unserer Berechnung von verwendet r:
- Berechnen Sie x̄, die bedeuten aller ersten Koordinaten der Daten xich.
- Berechnen Sie ȳ, den Mittelwert aller zweiten Koordinaten der Daten
- yich.
- Berechnung s x die Probe Standardabweichung aller ersten Koordinaten der Daten xich.
- Berechnung s y die Stichprobenstandardabweichung aller zweiten Koordinaten der Daten yich.
- Verwenden Sie die Formel (zx)ich = (xich - x̄) / s x und berechnen Sie jeweils einen standardisierten Wert xich.
- Verwenden Sie die Formel (zy)ich = (yich – ȳ) / s y und berechnen Sie jeweils einen standardisierten Wert yich.
- Entsprechende standardisierte Werte multiplizieren: (zx)ich(zy)ich
- Fügen Sie die Produkte aus dem letzten Schritt zusammen.
- Teilen Sie die Summe aus dem vorherigen Schritt durch n - 1, wo n ist die Gesamtzahl der Punkte in unserem Satz gepaarter Daten. Das Ergebnis all dessen ist der Korrelationskoeffizient r.
Dieser Prozess ist nicht schwer und jeder Schritt ist ziemlich routinemäßig, aber das Sammeln all dieser Schritte ist ziemlich kompliziert. Die Berechnung der Standardabweichung allein ist langwierig genug. Die Berechnung des Korrelationskoeffizienten umfasst jedoch nicht nur zwei Standardabweichungen, sondern auch eine Vielzahl anderer Operationen.
Ein Beispiel
Um genau zu sehen, wie der Wert von r erhalten wird, schauen wir uns ein Beispiel an. Auch hier ist es wichtig zu beachten, dass wir für praktische Anwendungen unseren Taschenrechner oder unsere Statistiksoftware zum Berechnen verwenden möchten r für uns.
Wir beginnen mit einer Auflistung gepaarter Daten: (1, 1), (2, 3), (4, 5), (5,7). Der Mittelwert der x Werte ist der Mittelwert von 1, 2, 4 und 5 x̄ = 3. Wir haben auch ȳ = 4. Die Standardabweichung der
x Werte ist sx = 1,83 und sy = 2.58. Die folgende Tabelle fasst die anderen erforderlichen Berechnungen zusammen r. Die Summe der Produkte in der Spalte ganz rechts beträgt 2,969848. Da es insgesamt vier Punkte gibt und 4 - 1 = 3, teilen wir die Summe der Produkte durch 3. Dies ergibt einen Korrelationskoeffizienten von r = 2.969848/3 = 0.989949.
Tabelle für ein Beispiel zur Berechnung des Korrelationskoeffizienten
x | y | zx | zy | zxzy |
---|---|---|---|---|
1 | 1 | -1.09544503 | -1.161894958 | 1.272792057 |
2 | 3 | -0.547722515 | -0.387298319 | 0.212132009 |
4 | 5 | 0.547722515 | 0.387298319 | 0.212132009 |
5 | 7 | 1.09544503 | 1.161894958 | 1.272792057 |