Was ist die Regressionslinie der kleinsten Quadrate?

Ein Streudiagramm ist eine Art Diagramm, das zur Darstellung verwendet wird gepaarte Daten. Die erklärende Variable ist entlang der horizontalen Achse aufgetragen und die Antwortvariable ist entlang der vertikalen Achse grafisch dargestellt. Ein Grund für die Verwendung dieses Diagrammtyps besteht darin, nach Beziehungen zwischen den Variablen zu suchen.

Das grundlegendste Muster, nach dem in einem Satz gepaarter Daten gesucht werden muss, ist das einer geraden Linie. Durch zwei beliebige Punkte können wir eine gerade Linie zeichnen. Wenn unser Streudiagramm mehr als zwei Punkte enthält, können wir die meiste Zeit nicht mehr eine Linie zeichnen, die durch jeden Punkt verläuft. Stattdessen zeichnen wir eine Linie, die durch die Mitte der Punkte verläuft und den gesamten linearen Trend der Daten anzeigt.

Wenn wir uns die Punkte in unserem Diagramm ansehen und eine Linie durch diese Punkte ziehen möchten, stellt sich eine Frage. Welche Linie sollen wir ziehen? Es gibt unendlich viele Linien, die gezeichnet werden könnten. Wenn wir nur unsere Augen benutzen, ist es klar, dass jede Person, die das Streudiagramm betrachtet, eine etwas andere Linie erzeugen kann. Diese Mehrdeutigkeit ist ein Problem. Wir möchten eine klar definierte Möglichkeit für alle, die gleiche Linie zu erhalten. Ziel ist es, eine mathematisch genaue Beschreibung zu haben, welche Linie gezogen werden soll. Die kleinsten Quadrate

instagram viewer
Regressionsgerade ist eine solche Linie durch unsere Datenpunkte.

Kleinsten Quadrate

Der Name der Linie der kleinsten Quadrate erklärt, was sie tut. Wir beginnen mit einer Sammlung von Punkten mit Koordinaten von (xich, yich). Jede gerade Linie verläuft zwischen diesen Punkten und verläuft entweder über oder unter jedem dieser Punkte. Wir können die Abstände von diesen Punkten zur Linie berechnen, indem wir einen Wert von wählen x und dann Subtrahieren der beobachteten y entsprechende Koordinate x von dem y Koordinate unserer Linie.

Unterschiedliche Linien durch denselben Satz von Punkten würden einen unterschiedlichen Satz von Abständen ergeben. Wir möchten, dass diese Abstände so klein wie möglich sind. Aber es gibt ein Problem. Da unsere Entfernungen entweder positiv oder negativ sein können, hebt sich die Gesamtsumme aller dieser Entfernungen gegenseitig auf. Die Summe der Entfernungen ist immer gleich Null.

Die Lösung für dieses Problem besteht darin, alle negativen Zahlen durch Quadrieren der Abstände zwischen den Punkten und der Linie zu beseitigen. Dies ergibt eine Sammlung nichtnegativer Zahlen. Das Ziel, eine Linie mit der besten Anpassung zu finden, ist das gleiche wie die Summe dieser quadratischen Abstände so klein wie möglich zu halten. Kalkül kommt hier zur Rettung. Der Differenzierungsprozess im Kalkül ermöglicht es, die Summe der quadratischen Abstände von einer gegebenen Linie zu minimieren. Dies erklärt den Ausdruck "kleinste Quadrate" in unserem Namen für diese Zeile.

Linie der besten Passform

Da die Linie der kleinsten Quadrate die quadratischen Abstände zwischen der Linie und unseren Punkten minimiert, können wir uns diese Linie als diejenige vorstellen, die am besten zu unseren Daten passt. Aus diesem Grund wird die Linie der kleinsten Quadrate auch als Linie der besten Anpassung bezeichnet. Von allen möglichen Linien, die gezeichnet werden könnten, ist die Linie der kleinsten Quadrate dem gesamten Datensatz am nächsten. Dies kann bedeuten, dass unsere Linie keinen der Punkte in unserem Datensatz trifft.

Merkmale der Linie der kleinsten Quadrate

Es gibt einige Merkmale, die jede Linie der kleinsten Quadrate besitzt. Der erste Punkt von Interesse befasst sich mit der Steigung unserer Linie. Der Hang hat eine Verbindung zum Korrelationskoeffizient unserer Daten. Tatsächlich ist die Steigung der Linie gleich r (sy/ sx). Hier s x bezeichnet die Standardabweichung der x Koordinaten und s y die Standardabweichung der y Koordinaten unserer Daten. Das Vorzeichen des Korrelationskoeffizienten steht in direktem Zusammenhang mit dem Vorzeichen der Steigung unserer Linie der kleinsten Quadrate.

Ein weiteres Merkmal der Linie der kleinsten Quadrate betrifft einen Punkt, durch den sie verläuft. Während y Das Abfangen einer Linie der kleinsten Quadrate ist unter statistischen Gesichtspunkten möglicherweise nicht interessant, es gibt einen Punkt. Jede Linie der kleinsten Quadrate verläuft durch den Mittelpunkt der Daten. Dieser Mittelpunkt hat eine x Koordinate, die die ist bedeuten des x Werte und a y Koordinate, die der Mittelwert der ist y Werte.