Lineare Regression

Gegeben:

n Punkte pi=[xi,yi] mit n≥2

Gesucht:

Die Gerade, die diese Punkte am besten annähert.

Exakter formuliert: die Parameter s und t der Geraden f(x)=s·x+t,
für die die Summe der Quadrate der senkrechten Abstände der Punkte von der Gerade minimal ist.

Als Formel: minimiere den Fehler
E= ∑i∈[1..n] (f(xi)-yi

Berechnung des Fehlers

  • E =
  • = ∑i∈[1..n] (f(xi)-yi
  • = ∑i∈[1..n] (s·xi+t-yi
  • = ∑i∈[1..n] (s²·xi² + t² + yi² + 2·s·xi·t - 2·s·xi·yi - 2·t·yi)
  • = ∑s²·xi² + ∑t² + ∑yi² + ∑2·s·xi·t - ∑2·s·xi·yi - ∑2·t·yi
  • = s²·∑xi² + n·t² + ∑yi² + 2·s·t·∑xi - 2·s·∑xi·yi - 2·t·∑yi

Für die Berechung brauchen wir also:

Beschreibung Symbol Berechnung  
Anzahl der Punkte n ∑1  
Summe der x Sx ∑xi  
Summe der y Sy ∑yi  
Summe der Produkte Sxy ∑xi·yi  
Summe der x-Quadrate Sxx ∑xi²  
Summe der y-Quadrate Syy ∑yi²  

Damit läßt sich die Gleichung substituieren zu:

E = s²·Sxx + t²·n + Syy + 2·s·t·Sx - 2·s·Sxy - 2·t·Sy

Um die Extremwerte zu finden, leiten wir die Gleichung einmal nach s und einmal nach t ab:

  1. ∂E/∂s = 2·s·Sxx + 2·t·Sx - 2·Sxy
  2. ∂E/∂t = 2·t·n + 2·s·Sx - 2·Sy

Dabei verschwindet der Wert Syy.
Wir erhalten das lineare Gleichungssystem:

2·s·Sxx + 2·t·Sx = 2·Sxy
2·t·n + 2·s·Sx = 2·Sy

Oder umgeformt:

s · 2·Sxx + t · 2·Sx = 2·Sxy
s · 2·Sx + t · 2·n = 2·Sy

Die Determinante berechnet sich zu

det = n * Sxx - Sx²

Sie ist 0 genau dann, wenn die x-Werte aller Punkte gleich sind.

Die Lösung unseres Gleichungssystems liefert die Koeffizienten der Gerade:

s = (n · Sxy - Sx · Sy ) / det
t = (Sxx · Sy - Sx · Sxy) / det

Heureka!