1 / 36

STATISIK

STATISIK. LV Nr.: 0021 WS 2005/06 15. November 2005. Regressionsanalyse. Linear Mehrfachregression Eine abhängige Variabel Y Mehrere unabhängige Variabeln x 1 ,…,x k-1 . Modell: Y i = β 0 + β 1 x 1 + β 2 x 2 + …+ β k-1 x k-1 + ε i für i =1,…,n

Download Presentation

STATISIK

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. STATISIK LV Nr.: 0021 WS 2005/06 15. November 2005

  2. Regressionsanalyse • Linear Mehrfachregression • Eine abhängige Variabel Y • Mehrere unabhängige Variabeln x1,…,xk-1. • Modell: Yi = β0 + β1x1 + β2x2 + …+ βk-1xk-1 + εi für i=1,…,n • β0… Absolutglied, Interzept • βj … Steigungsparameter (j=1,…,k-1) • xj … unabhängige Variable (j = 1,…,k-1) • εi … Störterm, zufälliger Fehler

  3. Regressionsanalyse • Beispiel: Körpergröße soll durch die Körpergröße der Eltern erklärt werden. • Abhängige Variable: Y = Größe, • Unabhängige Variablen: X1 = Größe Mutter und X2 = Größe Vater • Modell: yi = β0 + β1x1 + β2x2 + εi

  4. Regressionsanalyse • Matrixschreibweise: Y = Xβ + ε • Y … n1 Vektor der abhängigen Variable • X … nk Matrix der unabhängigen Variable, X=[1:Xj] mit j=1,…,k-1 • β … k1 Parametervektor, β=[β0:βj]´ mit j=1,…,k-1 • ε … n1 Vektor der zufälligen Störungen

  5. Regressionsanalyse • Annahmen: • E(ε) = 0 • Var(ε) = σ² • Cov(ε) = E(εε´) = σ²I • X nicht stochastisch • rang(X) = k (X sind nicht linear abhängig)

  6. Regressionsanalyse • Kleinste Quadrate Schätzung: • Minimierung der Abweichungsquadratsumme • (Y-Xb)‘(Y-Xb) = (yi-xi.b)²  min

  7. Regressionsanalyse • Normalengleichungssystem: (X´X)b = X´y • Daraus ergibt sich als Kleinste Quadrate Schätzer für β: b = (X´X)-1X´y b … k1 Vektor der Schätzer

  8. Regressionsanalyse • Konsequenzen aus den Normalgleichungen: • X‘e = 0 • Ŷ‘e = 0 • e = MY mit M = I – X(X‘X)-1X‘

  9. Regressionsanalyse • Statistische Eigenschaften: • E(e) = 0 • VC(e) = σ²M ( σ²I = VC(ε)) • E(b) = β • VC(b) = σ²(X‘X)

  10. Regressionsanalyse • Schätzung von σ²: • E(s²) = σ² • Schätzung der Varianz-Kovarianz Matrix von b: VC(b)est. = s²(X‘X)-1 (unverzerrt für VC(b))

  11. Regressionsanalyse • Gauss-Markov Theorem: • Y=Xβ+ε • Es gelten Ann. 1-4 und β kist beliebig • b* sei ein linearer unverzerrter Schätzer für β • VC(b)  VC(b*), d.h. VC(b*)-VC(b) ist nichtnegativ definit. • Var(bi)  Var(bi*) für alle i = 1, ..., k • Man sagt: b ist BLUE • c‘b ist der BLUE für die Linearkombination c‘β

  12. Regressionsanalyse • Ein Schätzer b* für β heißt linear, falls b*=DY, wobei D eine nichtzufällige kn Matrix ist. • Ein Schätzer b* für β heißt unverzerrt, falls E(b*) = β.

  13. Regressionsanalyse • Tests der Regressionskoeffizienten: • Einseitige Hypothesen: • H0: βi β* (z.B. 0) gegen H1: βi < β* • H0: βi β* (z.B. 0) gegen H1: βi > β* • Zweiseitige Hypothese: • H0: βi = β* (z.B. 0) gegen H1: βi β*

  14. Regressionsanalyse • Teststatistik: • T = (bi - β*) / sbi • Testverteilung: • T ~ tn-k • Entscheidung: Lehne H0 ab, wenn T im kritischen Bereich liegt.

  15. Regressionsanalyse • Konfidenzintervalle der Parameter: • Wahrscheinlichkeitsintervall: • P(bi – t sbi β  bi + t sbi) = 1 – α für i = 1,...,k • Konfidenzintervall: • [bi – t sbi ; bi + t sbi] für i = 1,...,k mit t = t1- α/2;n-k

  16. Regressionsanalyse • Beispiel Körpergröße: • Modell: Y = β0 + β1X1 + β2X2 • Parameterschätzer und p-Werte: • b0 = 81,24; p-Wert = 0,015 • b1 = 0,545; p-Wert = 0,005 • b2 = 0,008; p-Wert = 0,87 • Körpergröße der Mutter hat einen positiven Einfluss auf die Körpergröße des Kindes

  17. Regressionsanalyse • Quadratsummen: • SST = (yi -y)² = nsy² = Y‘AY • SSE = (ŷi -ŷ)² = nsŷ² = Ŷ‘A Ŷ • SSR = ei² = ns² = e‘Ae • wobei A = (In – (1/n)ii‘) • Quadratsummenzerlegung: • SST = SSE + SSR

  18. Regressionsanalyse • F-Test: • Prüft, ob zw. der abhängigen Variable Y und den unabhängigen Variablen X2,…,Xk ein linearer Zusammenhang besteht. • H0: β2 = β3 = … = βk = 0 • Mittlere quadratische Abweichungen: • MQE = SSE / (k-1) • MQR = SSR / (n-k)

  19. Regressionsanalyse • Teststatistik: • F = MQE / MQR • F ~ F(k-1),(n-k) • Entscheidung: • F > F(k-1),(n-k) lehne H0 ab, d.h. es besteht eine lineare Abhängigkeit zw. Y und X.

  20. Regressionsanalyse • Lineares multiples Bestimmtheitsmaß: • R² = SSE / SST = 1 – SSR / SST • Es gilt: 0  R²  1 • Linearer multipler Korrelationskoeffizient: • r = +R², absolute Größe (unterschiedliche Vorzeichen der einzelnen Koeffizienten mögl.)

  21. Regressionsanalyse • Lineares partielles Bestimmtheitsmaß: • Regressoren X2, ...,Xk: r²Y,X2,...,Xk = SSE(X2,...,Xk) / SST • Zusätzliche erklärende Variable Xk+1: r²Y,X2,...,Xk,Xk+1 = SSE(X2,...,Xk,Xk+1) / SST • Zusätzliche (durch Xk+1) erklärte Abweichungsquadratsumme: SSE(Xk+1|X2,...,Xk) = SSE(X2,..., Xk,Xk+1) – SSE(X2,...,Xk) = (r²Y,X2,...,Xk,Xk+1 – r²Y,X2,...,Xk,Xk+1) SST

  22. Regressionsanalyse • Lineares partielles Bestimmtheitsmaß: • Quotient der zusätzlichen erklärten Abweichungsquadratsumme zu der bisher nicht erklärten Abweichungsquadratsumme: • r²Y(k+1),X2,...,Xk = SSE(Xk+1|X2,...,Xk) / SSR(X2,...,Xk) = (r²Y,X2,...,Xk+1 – r²Y,X2,...,Xk) / (1 – r²Y,X2,...,Xk) wobei SSR(X2,...,Xk) = SST – SSE(X2,...,Xk)

  23. Regressionsanalyse • Partieller F-Test: • f = MQE(Xk+1|X2,...,Xk) / MQR(X2,...,Xk,Xk+1) • MQE(Xk+1|X2,...,Xk)=SSE(Xk+1|X2,...,Xk)/(k-2) • MQR(X2,...,Xk+1)=SSR(X2,...,Xk+1)/(n-k) • f ~ F(k-2),(n-k)

  24. Regressionsanalyse • Adjusted R²: berücksichtigt die Anzahl der Koeffizienten • adj. R² = (1-k)/(n-k) + (n-1)/(n-k) R² • Es gilt: (1-k)/(n-k)  adj. R²  1

  25. Regressionsanalyse • Variablenselektion: • Wie viele bzw. welche erklärenden Variablen sollen in das Modell aufgenommen werden? • Kriterium? • R² => Wähle Modell mit größten R² => immer Modell mit allen möglichen Variablen – Unsinn! • Adj. R² => Wähle Modell mit dem größten Wert des korrigierten Bestimmtheitsmaßes. • AIC, BIC => Wähle Modell mit kleinsten Wert von AIC (Akaike‘s Information Criterion) bzw. BIC (Bayesian Information Criterion)

  26. Regressionsanalyse • Vorwärtsauswahl • Einfachregressionen zw. Y und Xi (i=2,…,k) • Sind alle Variablen nicht signifikant, Abbruch. • Sind einige Variablen signifikant, wählt jene mit dem höchsten F-Wert. • Variable mit höchstem partiellen F-Wert (und > als ein kritischer Wert) ins Modell aufnehmen • usw.

  27. Regressionsanalyse • Rückwärtsauswahl • Umkehrung des Verfahrens der Vorwärt- Selektion. • Modell mit allen erklärenden Variablen • Sind alle Variablen signifikant, Modell mit allen Variablen. • Sind Variable nicht signifikant, schließe jene mit dem kleinsten partiellen F-Wert aus. • usw.

  28. Regressionsanalyse • Schrittweise Auswahl • Prüfe ob ein linearer Zusammenhang vorliegt • Wähle jene Variable mit dem höchsten linearen Einfachkorrelationskoeffizienten. • Wähle jene Variable mit dem höchsten signifikanten partiellen F-Wert • Prüfe alle Variablen im Modell auf Signifikanz, bei nicht-signifikanten schließe jene aus, die den kleinsten partiellen F-Wert besitzen. • usw.

  29. Regressionsanalyse • Prognose: • Ziel: bei gegebenen Werten der unabhängigen Variablen, zugehörige Werte der abhängigen Variable prognostizieren. • Schätzung des Erwartungswertes E(yf) • Schätzung eines Einzelwertes yf an der Stelle xf.

  30. Regressionsanalyse • Geg. xf. (weitere Werte von X) • Ges. zugehöriger Wert yf von Y und/oder mittleres Verhalten E(yf) = xf.b • Weitere Annahmen: • yf = xf.β + εf • E(εf) = 0 • E(εf²) = σ² • E(εf ,εi) = 0 für alle i = 1,…,n • xf. nicht stochastisch

  31. Regressionsanalyse • Parameter bekannt: • Prognose der Einzelwerte: ŷf = xf.β • Prognose des Erwartungswertes: E(ŷf) = xf.β • Parameter unbekannt: • Prognose der Einzelwerte: ŷf = xf.b ŷf ist ein unverzerrter Prediktor für yf • Prognose des Erwartungswertes: E(ŷf) = xf.b E(ŷf)ist ein unverzerrter Prediktor für E(yf)

  32. Regressionsanalyse • Prognose Erwartungswert E(ŷf) = xf.β • Varianz des durchschnittlichen Prognosewertes sŷf² • Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) e‘e)

  33. Regressionsanalyse • Prognose Einzelwert ŷf = xf.β • Prognosefehler: ef = yf – ŷf • Varianz des individuellen Prognosewertes sf² • Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) e‘e)

  34. Regressionsanalyse • 1-α Konfidenzintervall für E(ŷf): [ŷf – t sŷf ; ŷf + t sŷf] t = t1-α;n-k • 1-α Prognoseintervall für ŷf: [ŷf – t syf ; ŷf + t syf] t = t1-α;n-k

  35. Regressionsanalyse • Nichtlineare Regression: • Nichtlineare Regressionsfunktion • Gelten die üblichen Annahmen, gelten die Eigenschaften für die KQ Schätzer

  36. Regressionsanalyse • Nichtlinearer Einfachregression als lineare Zweifachregression ansehen • z.B. yi= β1+β2xi+ β3xi² +εi setze x=x1 und x²=x2, und interpretiere yi= b1+b2x1i+ b3x2i im Sinne der linearen Zweifachregression • Variablentransformation – Linearisierung – Anwendung d. linearen Regressionsanalyse • z.B. Potenzfunktion: yi = β1·xiβ2·εi Logarithmieren ergibt lineare Funktion (linear in den Parametern): log(yi)=log(β1)+β2log(xi)+log(εi)

More Related