Regressionsanalyse

Die Regressionsanalyse ist ein statistisches Verfahren zur Analyse von Daten und geht von der Aufgabenstellung aus, sog. "einseitige" statistische Abhängigkeiten (d.h. statistische Ursache-Wirkung-Beziehungen) durch so genannte "Regressionsfunktionen" zu beschreiben. Dazu verwendet man oft lineare Funktionen, aber auch quadratische Funktionen und Exponentialfunktionen.

Für quantitative Wirtschaftsanalysen im Rahmen der Regressionsanalyse sind besonders geeignet:

Inhaltsverzeichnis

Erklärung der Regressionsanalyse

Es wird eine metrische Variable y betrachtet, die von einer oder mehreren metrischen unabhängigen Variablen bestimmt wird. Ein Beispiel wäre die Abhängigkeit der Arbeitslosenzahl von den Exporten und dem Inlandskonsum. Mit Hilfe der Regressionsanalyse wird die Struktur der Abhängigkeit zwischen y und den unabhängigen Variablen untersucht. Die interessierende Variable y wird abhängige Variable oder Zielvariable und die erklärenden Variablen x werden unabhängige Variablen oder Regressoren genannt. Es werden allerdings auch immer häufiger die Bezeichnungen Response-Variable für y und Prediktor-Variablen für x verwendet.


Ein spezielles Verfahren der Regressionsanalyse ist die lineare Regression, bei der angenommen wird, dass ein interessierendes Merkmal y gut durch eine lineare Kombination anderer Merkmale x erklärt werden kann. Die Gewichtung der Einflüsse der erklärenden Merkmale wird dabei aus Daten geschätzt.

Betrachtet man den Fall mit nur einer unabhängigen Variablen, so spricht man von linearer Einfachregression, den Fall mit 2 oder mehr unabhängigen Variablen bezeichnet man als multiple lineare Regression und X ist dann als Vektor aufzufassen.

Bezüglich der theoretischen Fundierung unterscheidet man in der Statistik zwischen

Deskriptive Regression

Es wird bei der deskriptiven Statistik vor allem auf den numerischen Aspekt der Regression Wert gelegt. Es gibt verschiedene Verfahren, die Abhängigkeitsstruktur zwischen den x-Werten und y zu ermitteln. Häufig verwendet wird die Methode der kleinsten Quadrate. Speziell für die Einfachregression gibt es aber auch Ausreißer-resistente Verfahren wie etwa das Drei-Gruppen-Verfahren.

Ein lineares Regressionsmodell hat den Vorteil, dass es exakt berechnet werden kann, nichtlineare Systeme müssen dagegen meist näherungsweise gelöst werden. Häufig können diese Regressionsmodelle dann nicht mehr wahrscheinlichkeitstheoretisch analysiert werden.

Der wahrscheinlichkeitstheoretisch basierten Regressionsanalyse liegen aber immer die numerischen Verfahren der deskriptiven Regression zu Grunde.

Es soll in diesem Artikel vor allem auf die wahrscheinlichkeitstheoretisch basierte lineare Regression, das so genannte Klassische lineare Regressionsmodell, eingegangen werden.

Einfaches lineares Regressionsmodell mit Beispiel einer Preis-Absatz-Funktion

Als Einführung in das statistische Modell wird die lineare Einfachregression anhand eines Beispiels dargestellt. Die eigentliche wahrscheinlichkeitstheoretische Betrachtung folgt im Abschnitt Multiple Regression.

300px|thumb|Streudiagramm von Preis und abgesetzter Menge an Sektflaschen

Eine renommierte Sektkellerei möchte einen hochwertigen Rieslingsekt auf den Markt bringen. Für die Festlegung des Abgabepreises soll zunächst eine Preis-Absatz-Funktion ermittelt werden. Dazu wurde in n = 6 Geschäften ein Testverkauf durchgeführt. Man erhielt sechs Wertepaare mit dem Ladenpreis x (in Euro) einer Flasche und die verkaufte Menge y an Flaschen:

Laden i 1 2 3 4 5 6
Preis einer Flasche xi 20 16 15 16 13 10
verkaufte Menge yi 0 3 7 4 6 10

Berechnung der Regressionsgeraden

Man geht von folgendem statistischen Modell aus:

Man betrachtet zwei Variablen, die vermutlich ungefähr in einem linearen Zusammenhang

y \approx \alpha + \beta x

stehen. Dabei sind x als unabhängige und y als abhängige Variable definiert. Es existieren von x und y je n Beobachtungen xi und yi (i = 1, ... , n). Der funktionale Zusammenhang y = f(x) zwischen x und y kann nicht exakt festgestellt werden, da α + βx von einer Störgröße ε überlagert wird, die nichterfaßbare Einflüsse (menschliches Verhalten, Meßungenauigkeiten uw.) miteinschließt. Es ergibt sich also das Modell

y = α + βx + ε bzw. y_i = \alpha + \beta x_i + \epsilon_i \;.

400px|thumb|Wahre unbekannte und geschätzte Regressionsgerade

Da α und βx nicht bekannt sind, kann auch y nicht in die Komponenten α + βx und ε zerlegt werden.

Es soll eine mathematische Schätzung für die Parameter α und β durch zwei Konstanten a und b gefunden werden, und zwar so, daß sich ergibt

yi = a + bxi + ei

Es gibt verschiedene Möglichkeiten, die Gerade zu schätzen. Man könnte eine Gerade so durch den Punkteschwarm legen, daß die Quadratsumme der Residuen, also der senkrechten Abweichungen ei der Punkte von dieser Ausgleichsgeraden minimiert wird.

Diese herkömmliche Methode ist die Minimum-Quadrat-Methode oder Methode der kleinsten Quadrate. Man minimiert die summierten Quadrate der Residuen,

RSS = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - (a + bx_i))^2 \rightarrow min!

bezüglich a und b. Durch partielles Differenzieren und Nullsetzen der Ableitungen erster Ordnung erhält man ein System von Normalgleichungen.

Die gesuchten Regressionskoeffizienten sind die Lösungen

b = \frac{\sum_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\sum_{i=1}^n (x_i- \bar x)^2} oder, nach Erweiterung des Bruchs durch 1/n,
b = \frac{s_{xy}}{s^2_x}

und

a = \bar y - b \bar x

mit \bar x als arithmetischem Mittel der x-Werte, \bar y entsprechend, und sxy als empirischer Kovarianz zwischen den xiund yi und sx2 als empirischer Varianz der xi. Man nennt diese Schätzungen auch Kleinste-Quadrate-Schätzer, KQ- oder OLS-Schätzer.

Preis einer Flasche verkaufte Menge

xi-\;_{\bar x}

yi-\;_{\bar y}

 

 

 

 

xi

yi

x*

y*

x*y*

x*x*

y*y*

\;_{\widehat y}

20

0

5

-5

-25

25

25

0,09

16

3

1

-2

-2

1

4

4,02

15

7

0

2

0

0

4

5,00

16

4

1

-1

-1

1

1

4,02

13

6

-2

1

-2

4

1

6,96

10

10

-5

5

-25

25

25

9,91

90

30

0

0

-55

56

60

30,00

Es ergibt sich in dem Beispiel

a = 19,73 und b = − 0,98.

Die geschätzte Regressionsgerade lautet y = 19,73 − 0,98x, so dass man vermuten kann, dass bei jedem Euro mehr der Absatz im Durchschnitt um ca. 1 Flasche sinkt.

Bestimmtheitsmaß

Es soll nun noch ein Maß für die Güte des gewählten Regressionsansatzes angegeben werden, das Bestimmtheitsmaß (Determinationskoeffizient, Bestimmtheitskoeffizient) r2 als das Quadrat des Korrelationskoeffizienten zwischen x und y. Man kann ihn interpretieren als Anteil der Information von y, die durch x erklärt wird, an der gesamten Information von y. Je größer r2 ist, desto höher ist der Anteil der durch x erklärten Streuung von y. Daher liegt auch r2 zwischen 0 und 1, wobei r2 = 0 bedeutet, dass x und y unkorreliert sind, und r2 = 1, dass x und y eine Gerade bilden.

Das klassische lineare Regressionsmodell

Multiple Regression

Die Prinzipien der wahrscheinlichkeitstheoretischen Regressionsanalyse werden für den Fall mit mehreren unabhängigen Variablen, der sogenannten multiplen Regression, erläutert, denn die formalen Zusammenhänge können so "eleganter" dargestellt werden.

Es existiert eine Variable y, die linear von mehreren fest vorgegebenen Variablen x abhängt in der Form

y = \beta_0 + \beta_1 x_1 + \beta_2 x_2+ ... +\beta_p x_p + \epsilon \;,

wobei ε wieder die Störgröße repräsentiert. ε ist eine Zufallsvariable und daher ist y als lineare Transformation von ε ebenfalls eine Zufallsvariable. Es liegen für die xj (j = 1, ... ,p) und y je n viele Beobachtungen vor, so dass sich für die Beobachtungen i (i = 1, ..., n) das Gleichungssystem

y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2}+ \cdots +\beta_p x_{ip} + \epsilon_i

ergibt. Als stichprobentheoretischer Ansatz wird jedes Stichprobenelement εi als eine eigene Zufallsvariable i interpretiert und ebenso so jedes yi.

Da es sich hier um ein lineares Gleichungssystem handelt, können die Elemente des Systems in Matrix-Schreibweise zusammengefasst werden. Man erhält die (n×1)-Spaltenvektoren der abhängigen Variablen y und der Störgröße ε als Zufallsvektoren und den ((p+1)×1)-Spaltenvektor der Regressionskoeffizienten βj

\underline y=   \begin{pmatrix}     y_1 \\    y_2 \\ ...\\ y_i \\ ...\\     y_n   \end{pmatrix} \;, \underline \epsilon=   \begin{pmatrix}     \epsilon_1 \\    \epsilon_2 \\ ...\\ \epsilon_i \\ ...\\     \epsilon_n   \end{pmatrix}  \; und \underline \beta=   \begin{pmatrix}  \beta_0 \\     \beta_1 \\    \beta_2 \\ ...\\ \beta_j \\ ...\\     \beta_p   \end{pmatrix} \;,

die (n×(p+1))-Datenmatrix \underline X= \begin{pmatrix} 1&x_{11}& x_{12}& \cdots &x_{1j}&\cdots &x_{1p}\\ 1&x_{21}& x_{22}& \cdots &x_{2j}&\cdots &x_{2p}\\ \vdots& & & & &\vdots \\ 1&x_{i1}& x_{i2}& \cdots &x_{ij}&\cdots &x_{ip}\\ \vdots& & & & &\vdots \\ 1&x_{n1}& x_{n2}& \cdots &x_{nj}&\cdots &x_{np} \end{pmatrix}.

Die Einsen in der ersten Spalte dienen als Platzhalter für das Absolutglied β0. Man nennt eine derartige "Variable" Dummyvariable.

Der Zufallsvektor ε ist verteilt mit dem Erwartungswertvektor und der Kovarianzmatrix Σε. y ist dann verteilt mit dem Erwartungswertvektor α + βx + Eε und der Kovarianzmatrix Σε.

Das Gleichungssystem lässt sich nun erheblich einfacher so darstellen:

\underline y = \underline X \cdot \underline \beta + \underline \epsilon

Annahmen des Klassischen linearen Regressionsmodells

Damit die Regressionsschätzungen inferentiell analysiert werden können, müssen für das klassische lineare Regressionsmodell bestimmte Annahmen erfüllt sein:

  1. Bezüglich der Störgröße εi
    1. Der Zufallsvektor ε ist verteilt mit dem Erwartungwertvektor 0 und der Kovarianzmatrix Σε = σε2I.
    2. Die Zufallsvariablen εi sind stochastisch unabhängig voneinander.
  2. Die Datenmatrix X ist fest vorgegeben
  3. Die Datenmatrix X hat den Rang (p+1).

Schätzung der Regressionskoeffizienten

Auch im multiplen linearen Regressionsmodell wird die Quadratsumme der Residuen nach der Methode der kleinsten Quadrate minimiert. Man erhält als Lösung (Satz von Gauß-Markow) den Vektor der geschätzten Regressionskoeffizienten

\underline b =   \begin{pmatrix}  b_0 \\     b_1 \\    b_2 \\ ...\\ b_j \\ ...\\     b_p   \end{pmatrix} = (\underline {X}^T \underline X )^{-1} \underline {X}^T \underline y.

Dieser Schätzer ist BLUE (Best Linear Unbiased Estimator), also der beste (erwartungstreu mit kleinster Varianz) lineare unverzerrte Schätzer. Für die Eigenschaften der Schätzfunktion b muss also keine Verteilungsinformation der Störgröße vorliegen.

Man erhält mit Hilfe des Minimum-Quadrat-Schätzers b das geschätzte Gleichungssystem

\underline y = \underline X \cdot \underline b + \underline e \;,

wobei e der Vektor der Residuen ist.


Das Interesse der Analyse liegt vor allem in der Schätzung \widehat y_0 oder auch Prognose der abhängigen Variablen y für ein gegebenes Tupel von x0. Die berechnet sich als

\underline y_0 = b_0 + b_1 x_{01} + b_2 x_{02}+ ... + b_p x_{0p}.

Ausgewählte Schätzfunktionen des KLR

Die Schätzwerte der yi berechnen sich als

\widehat \underline y = \underline {Xb} = \underline X (\underline X ^T \underline X )^{-1} \underline X ^T \underline y

wobei man kürzer

\widehat \underline y = \underline M \underline y

setzen kann. Die (n×n)-Matrix M ist übrigens idempotent und maximal vom Rang p+1. Sie wird auch "Hat-Matrix" genannt, weil sie y den "Hut" aufsetzt.


Die Residuen werden ermittelt als

\underline e = \underline y - \underline {Xb} =  \underline y - \underline M \underline y = (\underline I - \underline M) \underline y,

wobei I-M mit M vergleichbare Eigenschaften hat.


Die Prognose \;_{\widehat y_0} wird ermittelt als

\widehat y_0 = (1; x_{01}; x_{02}; \cdots ) (\underline X ^T \underline X )^{-1} \underline X ^T \underline y.


Da X fest vorgegeben ist, kann man alle diese Variablen als lineare Transformation von y und damit von ε darstellen, und deshalb können auch ihr Erwartungswertvektor und ihre Kovarianzmatrix unproblematisch ermittelt werden.


Die Varianz der Störgröße wird mit Hilfe der Residuen geschätzt, und zwar als mittlere Quadratsumme der Residuen

s^2_\epsilon = \widehat \sigma^2_\epsilon = \frac {\sum_{i=1} ^n e_i^2}{n-(p+1)} \;

Die Quadratsumme RSS ("residual sum of squares") der Residuen ergibt in Matrix-Notation

RSS = \underline {e}^T \underline e = \underline {y}^T (\underline I - \underline M)^T (\underline I - \underline M) \underline y = \underline y ^T (\underline I - \underline M) \underline y.

Schätzen und Testen im KLR

Für die inferentielle Regression (Schätzen und Testen) wird noch die Information über die Verteilung der Störgröße gefordert. Man hat hier eingeführt als zusätzliche Annahme

4. Die Störgröße εi ist normalverteilt.

Zusammen mit Annahme 1 erhält man für die Verteilung des Vektors der Störgröße:

\underline \epsilon \sim N(\underline 0; \sigma^2_\epsilon  \underline I).

Hier sind unkorrelierte Zufallsvariablen auch stochastisch unabhängig.

Da die interessierenden Schätzer zum größten Teil lineare Transformationen von ε sind, sind sie ebenfalls normalverteilt mit den entsprechenden Parametern.

Die Quadratsumme der Residuen ist als nichtlineare Transformation χ2-verteilt mit n-(p+1) Freiheitsgraden.

Es folgen Verfahren für ausgewählte Schätzer.

Güte des Regressionsmodells

Hat man eine Regression ermittelt, wird man sich wohl als Erstes für die Güte der Regression interessieren. Häufig verwendet wird als Maß für die Güte das Bestimmtheitsmaß r2. Ist das Bestimmtheitsmaß klein, kann man seine Signifikanz durch die Hypothese H0: r2 = 0 mit der Prüfgröße

f = \frac {r^2} {1-r^2} \cdot \frac {p+1} {n-(p+1)}

testen. f ist F-verteilt mit p+1 und n-(p+1) Freiheitsgraden. Überschreitet die Prüfgröße bei einem Signifikanzniveau α den kritischen Wert F(1-α; p+1; n-(p+1)), das (1-α)-Quantil der F-Verteilung mit p+1 und n-(p+1) Freiheitsgraden, wird H0 abgelehnt. r2 ist dann ausreichend groß, X trägt also vermutlich genügend viel Information zur Erklärung von y bei.

Beitrag der einzelnen Regressoren zur Erklärung von y

Man testet hier die Nullhypothese H0: βj = 0. Der Zufallsvektor b ist als lineare Transformation von ε verteilt wie

\underline b \sim N(\underline \beta; \sigma^2_\epsilon {(\underline X^T \underline X)}^{-1}).

Wenn man die Varianz der Störgröße schätzt, erhält man für die geschätzte Kovarianzmatrix

\underline S_b = s^2_\epsilon (\underline X^T \underline X)^{-1}.

Die geschätzte Varianz sj2 eines Regressionskoeffizienten bj steht als j-tes Diagonalelement in der geschätzten Kovarianzmatrix. Es ergibt sich also als Prüfgröße

t = \frac {b}{\sqrt{s^2_j}},

die t-verteilt ist mit n-(p+1) Freiheitsgraden. Ist |t| größer als der kritische Wert t(1-α/2; n-(p+1)), dem (1-α/2)-Quantil der t-Verteilung mit n-(p+1) Freiheitsgraden, wird die Hypothese abgelehnt, die Steigung bj ist also ausreichend hoch, der Beitrag des Regressors xj zur Erklärung von y ist signifikant groß.

Prognose

Ermittelt man einen Prognosewert, möchte man möglicherweise wissen, in welchem Intervall sich die prognostizierten Werte mit einer festgelegten Wahrscheinlichkeit bewegen. Man wird also ein Konfidenzintervall für den durchschnittlichen Prognosewert Ey0 ermitteln. Es ergibt sich als Varianz der Prognose

var \widehat y_0 = \sigma^2_\epsilon (1; x_{01}; x_{02}; \cdots ) (\underline X ^T \underline X )^{-1}  \begin{pmatrix} 1 \\ x_{01}\\ x_{02}\\ \vdots \end{pmatrix} .

Man erhält dann als (1-α)-Konfidenzintervall für den durchschnittlichen Prognosewert mit geschätzter Varianz

[\widehat y_0 - s_{y0} \cdot t(1-\alpha /2; n-(p+1)) \; ; \; \widehat y_0 + s_{y0} \cdot t(1-\alpha /2; n-(p+1))] .

Speziell für den Fall der linearen Einfachregression ergibt das

[\widehat y_0 - t ( 1- \alpha/2 ; n-(p+1)) s_ {\epsilon} \sqrt { \frac {1}{n} + \frac {(x_0 - \bar x)^2} { \sum_{i=1}^n (x_i - \bar x)^2 }} \; ; \; \widehat y_0 + t ( 1- \alpha /2 ; n-(p+1)) s_ {\epsilon} \sqrt { \frac {1}{n} + \frac {(x_0 - \bar x)^2} { \sum_{i=1}^n (x_i - \bar x)^2 }}]

Speziell aus dieser Form des Konfidenzintervalls erkennt man sofort, dass das Konfidenzintervall breiter wird, wenn die exogene Prognosevariable x0 sich vom "Zentrum" der Daten entfernt. Schätzungen der endogenen Variablen sollten also im Beobachtungsraum der Daten liegen, sonst werden sie sehr unzuverlässig. So kann die Schätzung der Arbeitslosenzahl im nächsten Jahr durchaus eingegrenzt werden, aber eine Schätzung in 20 Jahren wäre sinnlos.

Beispiel zur multiplen Regression

Zur Illustration der multiplen Regression wurde ein Beispiel durchgerechnet. Es wird untersucht, wie

die abhängige Variable y: Bruttowertschöpfung (in Preisen von 95; bereinigt, Mrd. Euro)
von den unabhängigen Variablen „Bruttowertschöpfung nach Wirtschaftsbereichen Deutschland (in jeweiligen Preisen; Mrd. EUR)“

abhängt.

400px|thumb|Matrixstreudiagramm der Regressionsvariablen

Variable Beschreibung der Variablen
BWSb95 Bruttowertschöpfung in Preisen von 95 (bereinigt)
BBLandFF Land- und Forstwirtschaft, Fischerei
BBProdG Produzierendes Gewerbe ohne Baugewerbe
BBBau Baugewerbe
BBHandGV Handel, Gastgewerbe und Verkehr
BBFinVerm Finanzierung, Vermietung und Unternehmensdienstleister
BBDienstÖP Öffentliche und private Dienstleister

Die Daten sind im Artikel Regressionsanalyse:Beispiel zur Regressionsanalyse angegeben.

Das Streudiagramm zeigt, dass die gesamte Wertschöpfung offensichtlich mit den Wertschöpfungen der wirtschaftlichen Bereiche positiv korreliert ist. Auffällig ist, dass die Wertschöpfung im Baugewerbe negativ mit den anderen Sektoren korreliert.

Der Test auf Güte des gesamten Regressionsmodells ergibt eine Prüfgröße von f = 162,911. Die Anpassung ist also bei einem Signifikanzniveau von 0,05 signifikant gut.

Die Analyse der einzelnen Beiträge der Variablen (Tabelle Coefficients) des Regressionsmodells ergibt bei einem Signifikanzniveau von 0,05 und einem kritischen Wert der Prüfgröße von 2,2, dass die Variablen BBLandFF und BBFinVerm offensichtlich die Variable BWSB95 nur unzureichend erklären können. Die Variablen BBHandGV und BBDienstÖP sind gerade noch signifikant. Besonders stark korreliert ist y mit den Variablen BBProdG und BBBau. Man könnte also die insignifikanten Variablen aus dem Modell entfernen. Es wäre auch denkbar, die beiden Variablen BBHandGV und BBDienstÖP auf ihren Erklärungswert hin zu überprüfen.

Es wurde beispielsweise für den letzten Datensatz (2. Quartal 2004) eine Prognose gerechnet. Für die x-Werte 5,95, 126,25, 21,2, 92,18, 155,47 und 105,56 ergab sich eine geschätzte Bruttowertschöpfung von y = 461,69 bei einem tatsächlich gemessenen von 461,15. Es ergab sich ein 95%-Konfidenzintervall von [459,58012; 463,80044] mit einer Breite von 4,22.

500px|thumb|Varianzzerlegung der Regression BWS 500px|thumb|Ergebnisse der Regression

Siehe auch

Korrelationskoeffizient, Messfehler

Literatur

Weblinks

See also: Regressionsanalyse, Bestimmtheitsmaß, Exponentialfunktion, F-Verteilung, Korrelationskoeffizient, Kovarianz, Lineare Funktion, Logistische Funktion, Messfehler, Methode der kleinsten Quadrate