Grundlagen der Regression: Kovarianz, Korrelation (r) und R²

Eingeordnet in Elektronik

Geschrieben am in Deutsch mit einer Größe von 7,34 KB

Regression: Ursprung und Verbindung zu Variablen

Der Begriff Regression wurde von Galton in seinem Buch Natural Inheritance (1889) eingeführt. Er bezog sich auf das allgemeine Gesetz der Regression: Jede Besonderheit beim Menschen wird von seinen Nachkommen geteilt, aber im Durchschnitt in geringerem Maße (Regression zum Mittelwert). Seine Arbeit konzentrierte sich auf die Beschreibung der physikalischen Eigenschaften der Nachkommen (Variable) basierend auf den Eltern (weitere Variable).

Pearsons Studie zur Körpergröße

Pearson (Galtons Freund) führte eine Studie mit über 1000 Datensätzen von Haushalten durch, die eine Beziehung wie folgt zeigte: Kindergröße = 85 cm + 0,5 * Vätergröße (ungefähr). Fazit: Sehr große Eltern neigen dazu, Kinder zu haben, die diese Größe erben, obwohl die Größe tendenziell zum Mittelwert zurückkehrt. Das Gleiche gilt für sehr kleine Eltern. Heute ist die prädiktive Regression ein Maß dafür, wie gut eine Variable die andere vorhersagt.

Gemeinsame Analyse von zwei Variablen

Eine mögliche Methode zur Erfassung von Daten für zwei Variablen ist die Beobachtung mehrerer Individuen einer Stichprobe. In jeder Zeile stehen die Daten einer Person. Jede Spalte repräsentiert die Werte einer Variablen. Die Individuen sind nicht in einer bestimmten Reihenfolge aufgelistet. Solche Beobachtungen können in einem Streudiagramm (Scatterplot) dargestellt werden. Hierbei ist jedes Individuum ein Punkt, dessen Koordinaten die Werte der Variablen sind. Unser Ziel ist es, zu erkennen, ob eine Beziehung zwischen den Variablen besteht, welcher Art diese ist und, wenn möglich, den Wert der einen Variable basierend auf der anderen vorherzusagen.

Direkte, inverse und unkorrelierte Beziehungen

  • Unkorreliert: Für Werte von X über dem Durchschnitt liegen die Werte von Y sowohl darüber als auch darunter in gleichen Proportionen.
  • Direkt (positiv): Bei Werten von X, die größer als der Mittelwert sind, sind die Werte von Y tendenziell ebenfalls größer. Bei Werten von X, die kleiner als der Mittelwert sind, fallen die Werte von Y ebenfalls.
  • Invers (negativ/abnehmend): Bei Werten von X, die größer als der Mittelwert sind, fallen die Werte von Y tendenziell.

Eignung des Regressionsmodells

Die Eignung des Modells hängt vom Verhältnis zwischen der Streuung (Dispersion) von Y und X ab. Die Streuung von Y ist abhängig von X. Das heißt, wenn wir Werte für X festlegen, beobachten wir, wie sich Y verteilt. Die Verteilung von Y für feste Werte von X wird als bedingte Verteilung bezeichnet. Wenn die Streuung signifikant reduziert wird, ist das Regressionsmodell geeignet.

Kovarianz $S_{xy}$ und die Art der Beziehung

Die Kovarianz zwischen zwei Variablen, $S_{xy}$, gibt an, ob die mögliche Beziehung zwischen den Variablen direkt oder invers ist:

  • Direkt (positiv): $S_{xy} > 0$
  • Invers (negativ): $S_{xy} < 0$
  • Unkorreliert: $S_{xy} = 0$

Das Vorzeichen der Kovarianz zeigt uns, ob die Punktwolke wächst oder nicht, aber es sagt uns nichts über den Grad der Beziehung zwischen den Variablen aus.

Pearsons linearer Korrelationskoeffizient (r)

Der lineare Korrelationskoeffizient von Pearson, $r$, gibt an, ob die Daten eine Tendenz zur Annäherung an eine Linie aufweisen (ausgenommen horizontale und vertikale Linien). Er hat das gleiche Vorzeichen wie $S_{xy}$ (Kovarianz) und zeigt somit eine direkte oder inverse Beziehung an. $r$ ist nützlich, um festzustellen, ob eine lineare Beziehung zwischen zwei Variablen besteht, dient aber nicht zur Analyse anderer Beziehungen (quadratische, logarithmische, etc.).

Eigenschaften von r

  • $r$ ist dimensionslos.
  • $r$ nimmt nur Werte zwischen $[-1, 1]$ an.
  • Variablen sind unkorreliert (keine lineare Beziehung), wenn $r = 0$.
  • Eine perfekte lineare Beziehung liegt vor, wenn $r = 1$ oder $r = -1$. (Ausgenommen sind Fälle kollinearer Punkte, die horizontal oder vertikal verlaufen.)
  • Je näher $r$ an $+1$ oder $-1$ liegt, desto besser ist der Grad der linearen Beziehung (vorausgesetzt, es gibt keine Ausreißer).

Häufig gestellte Fragen (FAQs) zu r

Wenn $r = 0$, bedeutet dies, dass die Variablen nicht unabhängig sind?
In der Praxis fast immer ja, aber nicht notwendigerweise in allen Fällen. Die Umkehrung ist jedoch wahr: Unabhängigkeit impliziert Unkorreliertheit.

Ich habe $r = 1.2$ erhalten. Ist das eine superlineare Beziehung?
Das ist ein Irrtum. $r$ nimmt immer einen Wert zwischen $-1$ und $+1$ an.

Ab welchen Werten wird von einer guten linearen Beziehung ausgegangen?
Es ist unmöglich, einen bestimmten Wert anzugeben. In diesem Kurs wird gesagt, dass wenn $|r| > 0.7$, eine gute lineare Beziehung vorliegt, und wenn $|r| > 0.4$, eine Beziehung besteht. (Anmerkung: Die Realität ist komplizierter, abhängig von Ausreißern, Homogenität der Varianzen etc.)

Definition und Zweck der Regression

Regression ist ein Verfahren, das verwendet wird, um eine Variable (oder mehrere) basierend auf einer anderen Variable vorherzusagen:

  • Y = Abhängige Variable (erklärte Variable)
  • X = Unabhängige Variable (Prädiktor, erklärende Variable)

Ziel ist es, eine Beziehung zu finden: $Y = f(X) + \text{Fehler}$. $f$ ist eine Funktion eines bestimmten Typs. Der Fehler ist zufällig, klein und hängt nicht von X ab. Das Beispiel der Höhenstudie von Pearson ist der Typ, der im weiteren Verlauf des Artikels behandelt wird. Das heißt, wir beschäftigen uns mit einfachen linearen Regressionsmodellen.

Das einfache lineare Regressionsmodell

Im einfachen linearen Regressionsmodell gibt es zwei Variablen: Y (abhängig) und X (unabhängig/erklärend/Prädiktor). Wir suchen eine sehr einfache Funktion von X (linear), die uns eine Schätzung ermöglicht:

$$\hat{Y} = b_0 + b_1 X$$

  • $b_0$: Achsenabschnitt (Konstante)
  • $b_1$: Steigung der Linie

$Y$ und $\hat{Y}$ stimmen selten perfekt überein. Die Differenz $e = Y - \hat{Y}$ wird als Residuum oder Restfehler bezeichnet.

Anpassungsgüte: Das Bestimmtheitsmaß $R^2$

Die Güte der Anpassung eines Regressionsmodells wird durch das Bestimmtheitsmaß $R^2$ gemessen. $R^2$ ist eine dimensionslose Größe, die nur Werte im Intervall $[0, 1]$ annehmen kann.

  • Bei einer guten Anpassung liegt $R^2$ nahe bei Eins.
  • Bei einer schlechten Anpassung liegt $R^2$ nahe bei Null.

$R^2$ wird auch als der Prozentsatz der Variabilität bezeichnet, der durch das Regressionsmodell erklärt wird. Während $R^2$ in allgemeinen Regressionsmodellen komplex zu schätzen ist, gilt im einfachen linearen Modell die einfache Beziehung: $R^2 = r^2$.

Nichtlineare und multiple Regression

Abhängig vom Aussehen des Streudiagramms können andere Arten von Modellen in Betracht gezogen werden (nichtlineare Regression). Es kann auch der Fall sein, dass eine Variable von mehreren anderen Variablen abhängt (multiple Regression).

Verwandte Einträge: