Was sind Rückstände?

Die lineare Regression ist ein statistisches Werkzeug, das bestimmt, wie gut eine gerade Linie zu einer Menge von passt gepaarte Daten. Die gerade Linie, die am besten zu diesen Daten passt, wird als Regressionslinie der kleinsten Quadrate bezeichnet. Diese Zeile kann auf verschiedene Arten verwendet werden. Eine dieser Anwendungen besteht darin, den Wert einer Antwortvariablen für einen bestimmten Wert einer erklärenden Variablen zu schätzen. Im Zusammenhang mit dieser Idee steht die eines Residuums.

(1, 2), (2, 3), (3, 7), (3, 6), (4, 9), (5, 9)

Berechnung des Residuums an den Punkten x = 5 subtrahieren wir den vorhergesagten Wert von unserem beobachteten Wert. Seit der y Die Koordinate unseres Datenpunktes war 9, dies ergibt einen Rest von 9 - 10 = -1.

Es gibt verschiedene Verwendungszwecke für Residuen. Eine Möglichkeit besteht darin, festzustellen, ob wir einen Datensatz mit einem linearen Gesamttrend haben oder ob wir ein anderes Modell in Betracht ziehen sollten. Der Grund dafür ist, dass Residuen dazu beitragen, nichtlineare Muster in unseren Daten zu verstärken. Was durch Betrachten eines Streudiagramms schwierig zu erkennen sein kann, kann durch Untersuchen der Residuen und eines entsprechenden Residuendiagramms leichter beobachtet werden.

instagram viewer

Ein weiterer Grund für die Berücksichtigung von Residuen besteht darin, zu überprüfen, ob die Bedingungen für die Inferenz für die lineare Regression erfüllt sind. Nach Überprüfung eines linearen Trends (durch Überprüfung der Residuen) überprüfen wir auch die Verteilung der Residuen. Um eine Regressionsinferenz durchführen zu können, möchten wir, dass die Residuen um unsere Regressionslinie ungefähr normal verteilt sind. EIN Histogramm oder stemplot der Residuen hilft zu überprüfen, ob diese Bedingung erfüllt ist.