200 likes | 320 Views
Ökonometrie II. Multikollinearität. Der Sachverhalt. Modell Y = X b + u , Ordnung von X : n x k Annahme A2: r( X ) = k In der Realität: Spalten von X können Linearkombinationen anderer Spalten sein („Rangabfall“); Determinante von X‘X ist Null
E N D
Ökonometrie II Multikollinearität
Der Sachverhalt Modell Y = Xb + u,Ordnung von X: nxk Annahme A2: r(X) = k In der Realität: • Spalten von X können Linearkombinationen anderer Spalten sein („Rangabfall“); Determinante von X‘X ist Null • Regressoren können hoch korreliert sein; Determinante von X‘X hat Wert nahe bei Null Fragestellungen: • Konsequenzen von Multikollinearität • Möglichkeiten zum Identifizieren von Multikollinearität • Möglichkeiten, die Auswirkungen von Multikollinearität zu vermindern Multikollinearität
Ein Beispiel Rang von X‘X ist 2 Determinante det(X‘X) von X‘X hat Wert Null Die Inverse (X‘X)-1 kann ermittelt werden als (CX‘X: Matrix der Kofaktoren); ist nicht definiert, wenn det(X‘X) = 0 Achtung! Korrelation zwischen 2. und 3. Spalte von X ist 1! Multikollinearität
Konsumfunktion C = b0 + b1 Ya + b2 Ye + b3 Yt + u C: Privater Konsum Ya: Einkommen aus unselbständiger Erwerbstätigkeit Ye: Einkommen aus Besitz und Unternehmung Yt: gesamtes Einkommen (Yt =Ye + Ya) X hat Ordnung nx4, aber Rang 3; X‘X hat Ordnung 4x4, aber Rang 3; die Inverse (X‘X)-1 existiert nicht! Multikollinearität
Korrelierte Regressoren Ordnung von X: nxk • X‘X kann eine nahezu singuläre Matrix sein • Invertieren von X‘X liefert sehr große Werte • Wegen Var{bt} = s2 (Xt’Xt)-1 sind Standardabweichungen der Schätzer gross • Die t-Werte sind klein, die Macht der t-Tests ist reduziert Multikollinearität
Konsumfunktion, Forts. C = a + b1 Ya + b2 Ye + u OLS-Schätzer für b1, geschrieben als partieller Regressionskoeffizient: bca: Schätzer aus einfacher Regression C = a + b1 Ya + u; analog bce, bea rae: Korrelationskoeffizient zwischen Ya und Ye • rae = 1; z.B. für Ye = c Ya: bce = c bca, bae = c-1 bca.e = 0/0 (unbestimmte Form) • für orthogonale Regressoren gelten rae = bae = 0 und bca.e = bca Multikollinearität
Identifizierte Parameter C = a + b1 Ya + b2 Ye + u Lineare Abhängigkeit: Ye = c Ya C = a + (b1 + cb2 )Ya + u = a + g Ya + u OLS-Schätzer für g = b1 + cb2 kann problemlos berechnet werden, nicht aber für b1 und b2 Man sagt: g ist identifiziert, b1 und b2 sind nicht identifiziert Multikollinearität
Konsumfunktion für 1976-2001 Datensatz DatS01 (Konsum und Einkommen) C = b0 + b1 YDR + b2 PC + b3 MP + u C: Privater Konsum YDR: verfügbares Einkommen der Haushalte PC: Konsumdeflator MP: privates Geldvermögen Multikollinearität
Konsumfunktion, Forts. Dependent Variable: CR Method: Least Squares Date: 04/28/05 Time: 20:26 Sample(adjusted): 1976 2001 Included observations: 26 Variable Coefficient Std. Error t-Statistic Prob. C 2310.739 298.3735 7.744451 0.0000 YDR 0.3936480.0618776.361820 0.0000 MP 0.0886770.007291 12.16215 0.0000 PC 1.2830740.437438 2.937727 0.0076 R-squared 0.997563 Mean dependent var 8365.077 Adjusted R-squared 0.997230 S.D. dependent var 1590.255 S.E. of regression 83.69166 Akaike info criterion 11.83279 Sum squared resid 154094.5 Schwarz criterion 12.02635 Log likelihood -149.8263 F-statistic 3001.430 Durbin-Watson stat 1.539090 Prob(F-statistic) 0.000000 Multikollinearität
Konsumfunktion, Forts. Dependent Variable: CR Method: Least Squares Date: 04/28/05 Time: 20:29 Sample(adjusted): 1976 2001 Included observations: 26 Variable Coefficient Std. Error t-Statistic Prob. C -766.3772 429.8791 -1.782774 0.0878 YDR 0.8060830.1406765.730050 0.0000 PC 1.8354511.182595 1.552054 0.1343 R-squared 0.981175 Mean dependent var 8365.077 Adjusted R-squared 0.979538 S.D. dependent var 1590.255 S.E. of regression 227.4772 Akaike info criterion 13.80014 Sum squared resid 1190155. Schwarz criterion 13.94531 Log likelihood -176.4019 F-statistic 599.3971 Durbin-Watson stat 0.348434 Prob(F-statistic) 0.000000 Multikollinearität
Multikollinearität Orthogonale Regressoren: für jedes Paar von Spalten xi und xj aus X gilt xi‘xj = 0 Unkorrelierte Regressoren: für jedes Paar von Spalten xi und xj aus X gilt rij = 0 Unter Multikollinearität versteht man das Nicht-Zutreffen der Orthogonalität der Regressoren bzw. das Nicht-Zutreffen der Unkorreliertheit der Regressoren Konsequenzen von Multikollinearität sind umso gravierender, je stärker die Regressoren korreliert sind Häufige Ursache für Multikollinearität ist ein gemeinsamer Trend zwischen den Regressoren; Achtung bei Lagstrukturen Multikollinearität
Residuendarstellung von bi Modell Y = Xb + u,Ordnung von X: nxk OLS-Schätzer für bi (vergl. Kap. 6.3 in Hackl, 2004): Mi: residuenerzeugende Matrix für Regression von Xi auf alle Spalten von X außer Regressor Xi („Hilfsregression für Xi“) = Mixi: Residuen der Regression von Xi auf alle Spalten von X außer Xi Multikollinearität
Schätzer für unkorrelierte Daten Die Matrix A = I – i(i‘i)-1i‘, i=(1,…,1)‘, erzeugt zentrierte Xi: AX2 enthält Abweichungen von den Mittelwerten für die Spalten Xi, i=2,…,k Für orthogonale Regressoren ist X2‘AX2 eine Diagonalmatrix i-te Komponente von b2: mit bi* stimmt mit dem OLS-Schätzer von bi aus Y = a+biXi+u überein Multikollinearität
Vergleich von bi und bi* • OLS-Schätzer bi sind unverzerrt; das gilt für die Schätzer bi* im allgemeinen nicht • die Varianz von bi kann sehr viel größere Werte annehmen als die Varianz von bi* • der Schätzer der Varianz der Störgrößen ist unverzerrt Multikollinearität
Ein Maß für Multikollinearität mit TSS = , RSS = Ri2 ist das Bestimmtheitsmaß der Regression von Xi auf die Spalten von X ohne Xi („Hilfsregression“) • Ri2 ≈ 0: bi* ≈ bi, Korr{Xi,Xj} ≈ 0 für alle i ≠ j; • Ri2 ≈ 1: RSS << TSS, d.h. Xi ist lineare Funktion der Spalten von X ohne Xi Multikollinearität bedeutet, dass Ri2 ≈ 1 für mindestens ein i Multikollinearität
Indikatoren für Multikollinearität • Bestimmtheitsmaße Ri2 der Hilfsregressionen • VIFi (variance inflation factors) • Determinante der Matrix der Korrelationskoeffizienten der Regressoren (ein Wert nahe bei Null zeigt Multikollinearität an) • Konditionszahl (condition index, condition number) k von X‘X: • lmax (lmin) ist maximaler (minimaler) Eigenwert von X‘X; ein großer Wert (>20) von k ist Hinweis auf Multikollinearität • Effekt des Hinzufügens eines Regressors auf se(bi): Regressor ist (a) relevant: se(bi) wird größer; (b) multikollinear: se(bi) wird kleiner Multikollinearität
Die Größen VIFi und Ri2 : variance inflation factor von bi Ergibt sich aus • VIFi ≈ 0: Ri2 ≈ 0, bi* ≈ bi, Corr{Xi,Xj} ≈ 0 für alle i ≠ j; kein Problem mit Multikollinearität • VIFi ≈ 1 für mindestens ein i: Ri2 ≈ 1, Xi ist lineare Funktion der Spalten von X ohne Xi; Achtung! Multikollinearität Multikollinearität
Gründe für große Var{bi} • Ist SXti2 klein: zu wenig Beobachtungen (extrem: n < k) • Ist klein: zu geringe Varianz der Xti (extrem: Var {Xi} = 0) • Ist : Multikollinearität (extrem: Ri2 = 1) Multikollinearität
t-Test bei Multikollinearität Der Schätzer für s wird durch Multikollinearität nicht gestört; se(bi) wird bei Multikollinearität überschätzt t-Test von H0: bi=0; Teststatistik T = bi/se(bi) • unter H0 gilt: T~ t(n-k), unabhängig von Multikollinearität (kein Effekt auf Wahrscheinlichkeit des Typ I Fehlers) • unter H1: bi ≠ 0 gilt: Wahrscheinlichkeit des Typ II Fehlers wächst mit Var{bi} Multikollinearität
Maßnahmen bei Multikollinearität • Vergrößern der in die Schätzung einbezogenen Datenmenge • Eliminieren der für Multikollinearität verantwortlichen Regressoren • Bei gemeinsamen Trends: Spezifikation des Modells in Differenzen statt in Niveauwerten • Berücksichtigen von Information über Struktur der Parameter Multikollinearität