Statistik und Analyse der linearen Regression

Die lineare Regression ist eine statistische Technik, mit der mehr über die Beziehung zwischen einer unabhängigen (Prädiktor-) Variablen und einer abhängigen (Kriterium-) Variablen erfahren wird. Wenn Ihre Analyse mehr als eine unabhängige Variable enthält, wird dies als multiple lineare Regression bezeichnet. Im Allgemeinen ermöglicht die Regression dem Forscher, die allgemeine Frage zu stellen: "Was ist der beste Prädiktor für ???"

Nehmen wir zum Beispiel an, wir haben die Ursachen von untersucht Fettleibigkeitgemessen am Body Mass Index (BMI). Insbesondere wollten wir herausfinden, ob die folgenden Variablen signifikante Prädiktoren für den BMI einer Person sind: Anzahl der Fastfoods Mahlzeiten pro Woche, Anzahl der Stunden Fernsehen pro Woche, Anzahl der Minuten, die pro Woche trainiert werden, und BMI. Die lineare Regression wäre eine gute Methode für diese Analyse.

Die Regressionsgleichung

Wenn Sie eine Regressionsanalyse mit einer unabhängigen Variablen durchführen, lautet die Regressionsgleichung Y = a + b * X wobei Y die abhängige Variable ist, X die unabhängige Variable ist, a die Konstante (oder der Achsenabschnitt) ist und b ist das

instagram viewer

Steigung der Regressionslinie. Nehmen wir zum Beispiel an, dass GPA am besten durch die Regressionsgleichung 1 + 0,02 * IQ vorhergesagt wird. Wenn ein Schüler einen IQ von 130 hätte, wäre sein GPA 3,6 (1 + 0,02 * 130 = 3,6).

Wenn Sie eine Regressionsanalyse durchführen, in der Sie mehr als eine unabhängige Variable haben, lautet die Regressionsgleichung Y = a + b1 * X1 + b2 * X2 +… + bp * Xp. Wenn wir beispielsweise mehr Variablen in unsere GPA-Analyse einbeziehen möchten, wie z. B. Motivations- und Selbstdisziplinierungsmaße, würden wir dies verwenden Gleichung.

R Quadrat

R-Quadrat, auch bekannt als Bestimmtheitsmaßist eine häufig verwendete Statistik zur Bewertung der Modellanpassung einer Regressionsgleichung. Das heißt, wie gut können alle Ihre unabhängigen Variablen Ihre abhängige Variable vorhersagen? Der Wert des R-Quadrats reicht von 0,0 bis 1,0 und kann mit 100 multipliziert werden, um einen Prozentsatz von zu erhalten Varianz erklärt. Zurück zum Beispiel zu unserer GPA-Regressionsgleichung mit nur einer unabhängigen Variablen (IQ) Das R-Quadrat für die Gleichung betrug 0,4. Wir könnten dies so interpretieren, dass 40% der Varianz in der GPA durch erklärt werden IQ. Wenn wir dann unsere beiden anderen Variablen (Motivation und Selbstdisziplin) addieren, erhöht sich das R-Quadrat auf 0,6 bedeutet dies, dass IQ, Motivation und Selbstdisziplin zusammen 60% der Varianz in der GPA erklären Partituren.

Regressionsanalysen werden normalerweise mit statistischer Software wie SPSS oder SAS durchgeführt, sodass das R-Quadrat für Sie berechnet wird.

Interpretation der Regressionskoeffizienten (b)

Die b-Koeffizienten aus den obigen Gleichungen repräsentieren die Stärke und Richtung der Beziehung zwischen den unabhängigen und abhängigen Variablen. Wenn wir uns die GPA- und IQ-Gleichung ansehen, ist 1 + 0,02 * 130 = 3,6, 0,02 der Regressionskoeffizient für die Variable IQ. Dies zeigt uns, dass die Richtung der Beziehung positiv ist, so dass mit zunehmendem IQ auch der GPA zunimmt. Wenn die Gleichung 1 - 0,02 * 130 = Y wäre, würde dies bedeuten, dass die Beziehung zwischen IQ und GPA negativ war.

Annahmen

Es gibt verschiedene Annahmen zu den Daten, die erfüllt sein müssen, um eine lineare Regressionsanalyse durchzuführen:

Linearität: Es wird angenommen, dass die Beziehung zwischen den unabhängigen und abhängigen Variablen linear ist. Obwohl diese Annahme niemals vollständig bestätigt werden kann, betrachtet man a Streudiagramm Ihrer Variablen kann dabei helfen, diese Bestimmung vorzunehmen. Wenn eine Krümmung in der Beziehung vorliegt, können Sie die Variablen transformieren oder nichtlineare Komponenten explizit berücksichtigen.
Normalität: Es wird davon ausgegangen, dass die Residuen Ihrer Variablen sind normal verteilt. Das heißt, die Fehler bei der Vorhersage des Wertes von Y (der abhängigen Variablen) werden so verteilt, dass sie sich der Normalkurve nähern. Sie können anschauen Histogramme oder normale Wahrscheinlichkeitsdiagramme, um die Verteilung Ihrer Variablen und ihre Restwerte zu überprüfen.
Unabhängigkeit: Es wird angenommen, dass die Fehler bei der Vorhersage des Wertes von Y alle unabhängig voneinander sind (nicht korreliert).
Homoskedastizität: Es wird angenommen, dass die Varianz um die Regressionslinie für alle Werte der unabhängigen Variablen gleich ist.

Quelle

_{StatSoft: Lehrbuch für elektronische Statistik. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.}