1 / 97

Regression und Korrelation

5. Regression und Korrelation. 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen 5.5 Nichtlineare Regression 5.6 Multiple Regression und Korrelation

chace
Download Presentation

Regression und Korrelation

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 5 Regression und Korrelation 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen 5.5 Nichtlineare Regression 5.6 Multiple Regression und Korrelation 5.7 Statistische Modelle 5.8 Varianzanalyse

  2. 5 Regression und Korrelation • Regressions- und Korrelationsanalyse ermittelt den statistischen Zusammenhang zwischen zwei (bivariat) oder mehreren (multivariat) ZVAs: - statistische Zusammenhangtests können nur entscheiden, ob ein signifikanter Zusammenhang besteht - Frage nach Art und Stärke des Zusammenhangs mit Regressions- bzw. Korrelationsanalyse zu beantworten • Verfahren der Regressions- und Korrelationsanalysesowohl auf GG als auch auf STP anzuwenden • je nach Skalenniveau der Variablen unterschiedliche Verfahren zu wählen: - klassische Regression und Korrelation setzt metrische Variablen voraus - Korrelationsmaße für ordinal- und nominalskalierte Variablen ebenfalls gebräuchlich - Regression für nicht metrische Variablen eher selten (s. Statistik II)

  3. 5 • Typen von Zusammenhängen: Regression und Korrelation komplex einseitig (nichtlinear) einfach einseitig X1 X0 Y X Y X2 X3 Y : Verdunstung X0 : Globalstrahlung X1 : Temperatur (=X) X2 : Luftfeuchte X3 : Turbulenz einfach wechselseitig Y X “Scheinkorrelation“ mehrfach einseitig Z X1 Y X2 Y X X3

  4. 5 • Veranschaulichung der Kovariabilität: Regression und Korrelation proportionaler (positiver) Zusammenhang kein Zusammenhang “je mehr desto mehr“ Verdunstung Ozongehalt Verdunstung Globalstrahlung Bezugseinheit (Zeitpunkt, Region, Proband, …) Bezugseinheit (Zeitpunkt, Region, Proband, …) instationärer Zusammenhang umgekehrt proportionaler (negativer) Zusammenhang “je mehr desto weniger“ Verdunstung Niederschlag bis Bewässerung Verdunstung Bewölkung Bezugseinheit (Zeitpunkt, Region, Proband, …) Bezugseinheit (Zeitpunkt, Region, Proband, …)

  5. 5 • Ermittlung der Kovariabilität: Regression und Korrelation X : Verdunstung Y : Temperatur Verdunstung Globalstrahlung Bezugseinheit (Zeitpunkt, Region, Proband, …) Kovarianz:

  6. 5.1 • Regressionsanalyse ermittelt die Art des Zusammenhangs zwischen Variablen: - Abhängigkeit einer Variablen Y von einer (einfach) oder mehreren (multiple) Variablen X bzw. X1, X2, …, Xn: Regression (Rückschluss) - unabhängige Ausgangsvariable: Prädiktor, Regressor - abhängige Zielvariable: Prädiktand, Regressand - inhaltlich festgelegt: z.B. Globalstrahlung  Verdunstung • elementarster Fall ist lineare Einfachregression: - gesucht ist Funktion f, die linearen Zusammenhang zwischen Y und X beschreibt: - diese Funktion f ist eine Geradengleichung der Form: - diese Regressionsgerade spiegelt die Orientierung der zweidimensionalen Punktwolke der Werte von X und Y am besten wider Regression Regression von Y nach X b : Steigung (Regressionskoeffizient) a : y-Achsenabschnitt (Regressionskonstante)

  7. 5.1 • typische Fragestellung: - X : Temperatur - Y : Verdunstung • Streuungsdiagramm (Punktwolke): - x-Achse: unabhängige Variable - y-Achse: abhängige Variable Regression ?

  8. 5.1 • Regressionsgerade hat zwei zentrale Eigenschaften: - exakte Lage hängt allein von der Verteilung der Punkte (xi,yi) im Streuungs- diagramm ab - optimale Repräsentanz der Punktwolke: alle Punkte sollen möglichst nah an der Geraden liegen, d.h. eine minimale mittlere Distanz haben - aus rechentechnischen Gründen werden vertikale Entfernungen betrachtet: Residuen Regression

  9. 5.1 • Gauß‘sches Prinzip der kleinsten Quadrate: - aus mathematischen Gründen nicht absolute sondern quadratische Residuen bei der Minimierung berücksichtigt (least square fit): - E ist eine Funktion der Parameter a und b, deren Minima durch die Nullstellen der partiellen Ableitungen nach a und b gekennzeichnet sind: Regression { Normalgleichungen I und II: 2 Gleichungen für 2 Unbekannte a und b

  10. 5.1 • Berechnung des Regressionskoeffizienten b: - Normalgleichung (I) mit xi sowie Normalgleichung (II) mit n multiplizieren: - Subtraktion (I) minus (II) liefert: Regression

  11. 5.1 • Berechnung der Regressionskonstante a: - Normalgleichung (I) mit xi2 sowie Normalgleichung (II) mit xi multiplizieren: - Subtraktion (I) minus (II) liefert: Regression

  12. 5.1 • Beispiel zur manuellen Berechnung der Parameter a und b: - generell empfiehlt sich Berechnung mit Tisch-/Taschenrechner - Bestimmung der folgenden Formelterme über tabellarisches Schema: - Einsetzen der Terme in obige Formeln liefert die Geradengleichung: Regression

  13. 5.1 • Interpretation der Regressionsgleichung: - zugrunde liegendes Modell ist nicht - sondern - Regressionsgleichung kann nur die Information auf Y abbilden, die in X enthalten ist - die Residuen ε kennzeichnen die zufälligen (nicht systematischen) Abweichungen der tatsächlichen y-Werte von der Regressionsgeraden - diese Zufallsfehler können auf andere, nicht berücksichtigte Prädiktoren zurückzuführen sein (multiple Regression) oder letztendlich stochastisch sein - die Residuen ε sind eine Funktion der Zeit und durch die Regressionsanalyse normiert: - die Regressionsgerade läuft immer durch das arithmetische Mittelzentrum - ferner stellen a und b nur STP-Schätzer für die entsprechenden Para- meter der GG dar: Konfidenzintervall und Signifikanzniveau zu bestimmen Regression Anpassung auf den Mittelwert

  14. 5.1 • Interpretation der Regressionsgleichung: - Regressionskoeffizient gibt an, um wie viele Einheiten sich Y ändert, wenn X sich um eine Einheit ändert: 0,15 mm pro 1,0 °C - bei positivem b ist Beziehung proportional, bei negativem b umgekehrt proportional - über die Regressionsgleichung lassen sich nun für beliebige (auch nicht auftretende) x-Werte die geschätzten y-Werte berechnen: - somit lassen sich auch Datenlücken in Y schließen und Prognosen für Y berechnen: Regression Prognosezeitraum von Y Datenlücke von Y Y Y X X beliebige Bezugseinheit Zeit

  15. 5.1 • Bestimmung von Zeitreihentrends: - im Falle des Trends ist die Zeit immer die unabhängige Variable X - bei annähernd linearen Entwicklungen lässt sich eine Zukunftsprognose anhand der Regressionsgleichung (statistisches Modell) durchführen - Beispiel: gegeben sind Zeitreihen der Natalität und Verstädterung in der ehem. Sowjetunion: Regression ‰ großes Residuum: unsichere Prognose ! ? kleines Residuum: sichere Prognose

  16. 5.2 • Korrelationsanalyse ermittelt die Stärke des Zusammenhangs zwischen Variablen: - keine Unterscheidung zwischen abhängigen und unabhängigen Variablen - hier nur lineare Einfachkorrelation im bivariaten Fall • Berechnung des Bestimmtheitsmaßes: - im Fall einer perfekten deterministischen Beziehung liegen alle Wertepaare (xi,yi) von X und Y exakt auf einer Geraden: - dann gilt für die STP-Varianz der yi: - d.h. die Varianz der yi wird ausschließlich bestimmt durch die Varianz der xi Korrelation

  17. 5.2 • Berechnung des Bestimmtheitsmaßes: - im nicht-deterministischen Fall existiert ein Residuum ε: - dann gilt für die Varianz der yi: - S kennzeichnet zusätzlichen Varianzanteil des Residuums, so dass Varianz der yi aus 2 Anteilen besteht: Resultat des Einflusses der xi und nicht erfasster (stochastischer) Anteil der εi - es gilt S = 0 nur im Fall, dass alle εi = 0 (deterministischer Zusammenhang) Korrelation

  18. 5.2 • Berechnung des Bestimmtheitsmaßes: - Verhältnis des durch xi erklärten Varianzanteils von yi durch die Gesamt- varianz der yi ist Maß für die Stärke des Zusammenhangs zwischen X und Y: Bestimmtheitsmaß B: - B kennzeichnet die durch X erklärte Varianz von Y - es gilt 0 ≤ B ≤ 1 - im Falle B = 1 liegt ein streng determi- nistischer Zusammenhang vor, d.h. alle Wertepaare (xi,yi) liegen exakt auf der Regressionsgeraden Korrelation

  19. 5.2 • Berechnung des Korrelationskoeffizienten ist aber gebräuchlicher: - sog. Produktmoment-Korrelationskoeffizienten rxy (nach Pearson) - gibt auch Proportionalität des Zusammenhangs an: positiv, negativ - allgemeine Definition: - mit einigen Umformungen von B - ergibt sich sich für den Korrelationskoeffizienten: Korrelation

  20. 5.2 • Eigenschaften des Korrelationskoeffizienten: - rxy kennzeichnet die mit den Einzelstandardabweichungen normierte Kovarianz von X und Y - es gilt rxy = ryx - rxy hat immer das gleiche Vorzeichen wie b: - Wertebereich und Deutung: - Beispiel Temperatur und Verdunstung: Korrelation positiv : proportional (je mehr desto mehr) negativ: umgekehrt proportional (je mehr desto weniger) sehr starker Zusammenhang starker Zusammenhang mittelstarker Zusammenhang schwacher Zusammenhang kein Zusammenhang 70,2 % der Verdunstungs- schwankungen können durch die Temperaturvariabilität erklärt werden (sehr starker Zusammenhang)

  21. 5.3 • Bestimmung der Koeffizienten der Regressions- und Korrelationsanalyse basiert i.d.R. auf STP-Werten xi und yi: - unterschiedliche STP-Werte führen zu unterschiedlichen Koeffizienten: - rxy und b sind Schätzer für die entsprechenden Koeffizienten ρ bzw. β der bivariaten GG (X,Y)  Frage nach Konfidenzintervallen von ρ und β  Frage nach Hypothesentest: Statistische Tests H0 : ρ = 0 H1 : ρ ≠ 0 H0 : β = 0 H1 : β ≠ 0

  22. 5.3 • statistische Tests für den Korrelationskoeffizienten: - vorausgesetzt ist, dass X und Y bivariat normalverteilt sind mit den Parametern μx, μy, σx, σy, ρxy: - im Fall ρ = 0: kreisrunde Form - im Fall ρ≠ 0: elliptische Form - Randverteilungen der bivariat normalverteilten GG sind univariate Normal- verteilungen - es gilt ferner, dass für beliebige x0 X und y0  Y die bedingten Wahrschein- lichkeiten P(Y|X=x0) und P(X|Y=y0) univariate Normalverteilungen sind Statistische Tests

  23. 5.3 • statistische Tests für den Korrelationskoeffizienten: - im Fall der bivariaten Normalverteilung ist ρ ein Maß für die Stärke des allgemei- nen Zusammenhangs zwischen X und Y - im Fall einer anderen bivariaten Vertei- lung misst ρ nur den linearen Zusammen- hang zwischen X und Y - Bild oben rechts zeigt keine Korrelation trotz starken Zusammenhangs, nur weil GG nicht bivariat normalverteilt sind - in der Praxis im Einzelfall zu prüfen, ob GG bivariat normalverteilt ist - meist aber STP zu klein für sichere Überprüfung - stattdessen werden nur die beiden Randverteilungen auf NV überprüft - in meisten Fällen ist dann GG bivariat normalverteilt (Ausnahmen selten) - statistische Tests jedoch relativ ro- bust gegenüber Verletzungen dieser Voraussetzung Statistische Tests

  24. 5.3 • statistische Tests für den Korrelationskoeffizienten: - nun zu überprüfen, ob Schätzwert rxy der STP {(xi,yi), i=1..n} für eine der beiden Hypothesen spricht: - unter H0 ist die folgende Testvariable t-verteilt mit Φ = n – 2 Freiheitsgraden: - im konkreten Fall ist dann die Prüfgröße mit dem kritischen Wert der t- Verteilung zu vergleichen (α, zweiseitig): - Beispiel Temperatur und Verdunstung:  signifikanter Zusammenhang zwischen Temperatur und Verdunstung Statistische Tests H0 : ρ = 0 H1 : ρ ≠ 0

  25. 5.3 • Problem der “ökologischen Verfälschung“: - zeitliche, räumliche oder inhaltliche Aggregation der Daten bewirkt immer Erhöhung des Korrelationskoeffizienten (pos./neg.) - praktisch durch Aggregation jeder Zusammenhang zu erzeugen: Maß der Aggregation als ZVA zu interpretieren - nur durch statistischen Test und angepasste Anzahl der Freiheitsgrade richtig einzuschätzen X : Verdunstung Y : Temperatur rxy=0,73 Statistische Tests rxy=0,87 Verdunstung Globalstrahlung Bezugseinheit (Zeitpunkt, Region, Proband, …)

  26. 5.3 • statistische Tests für die Regressionsanalyse: - andere Voraussetzungen als bei Korrelationsanalyse (unterschiedliche gedankliche Konzepte) - lineare Einfachregression soll beste Schätzung von Y bewerkstelligen unter folgenden Vorausetzungen: Statistische Tests 1) ZVA Y|x ist für jeden Wert x normalverteilt mit Mittelwert μy|x und Standardabweichung σy|x nicht linear: widerspricht Forderung 2) 2) die Mittelwerte μy|x liegen auf der Geraden: μy|x = β•X + α (stellt sicher, dass der Zusammen- hang linear ist)

  27. 5.3 • statistische Tests für die Regressionsanalyse: Statistische Tests 3) Homogenität der Zufallsfehlervarianzen σ2y|x nicht homogen: widerspricht Forderung 3) 4) die Residualvariablen ε|x = y|x – μy|x sind jeweils paarweise stochastisch unabhängig: ρ = 0 εi sind strukturiert: widerspricht Forderung 4) lineare Einfachregression ist kein angemessenes Modell, obwohl Bestimmtheitsmaß und Korrelationskoeffizient sehr hoch sind

  28. 5.3 • statistische Tests für die Regressionsanalyse: • - in der Praxis sind diese Voraussetzungen kaum zu prüfen, da bei STP zu • jedem xi jeweils nur ein yi gegeben ist • - zumindest Streudiagramm zeichnen, um Forderungen 2) bis 4) visuell • abzuschätzen •  Test für lineare Regressionsgleichung ergibt sich aus der Forderung, dass • die Residuen εi annähernd bivariat normalverteilt um 0 sind mit ρ = 0 Statistische Tests •  zusammenfassend: die Residualvariablen ε|x müssen: • den Mittelwert με = 0 haben • für alle x homogene Varianz σ2ε|x = σ2ε haben • bivariat normalverteilt sein • mit dem Korrelationskoeffizienten ρε = 0

  29. 5.3 • Test für den Regressionskoeffizienten: - geprüft werden die Hypothesen: - unter der Voraussetzung der H0 ist die folgende Prüfgröße t-verteilt mit (n-2) Freiheitsgraden: - zu vergleichen mit kriti- schem Wert tα/2;Φ gegeben das Irrtumsniveau α - Beispiel Temperatur und Verdunstung (α=5%):  es existiert ein linearer Zusammenhang Statistische Tests H0 : β = 0 H1 : β ≠ 0

  30. 5.3 • Konfidenzintervall für den Regressionskoeffizienten: - β liegt mit einer Irrtumswahrscheinlichkeit α im Konfidenzintervall: - Beispiel Temperatur und Verdunstung: - graphisch lässt sich das Konfidenzinter- vall über die beiden Grenzgeraden ver- anschaulichen: - die Grenzgeraden haben immer das arithmetische Mittelzentrum als Dreh- punkt Statistische Tests

  31. 5.3 • Konfidenzintervall für die Schätzwerte : - ist Schätzwert für das arithmetische Mittel aller zu einem x-Wert gehörenden Werte y|x der ZVA Y|x - Grundlage für die Berechnung des Konfidenzintervalls ist die folgende Schätzfunktion, die t-verteilt ist mit (n-2) Freiheitsgraden: - hängt von der Distanz zum Mittelwert ab: Standardfehler wächst mit zunehmender Distanz vom arithmetisches Mittelzentrum Statistische Tests

  32. 5.3 • Konfidenzintervall für die Schätzwerte : - dann lautet das Konfidenzintervall für den Erwartungswert der ZVA Y|x: - je näher am Mittelwert von X desto genauer die Schätzung von Y - Beispiel Temperatur und Verdunstung: - graphisch zu veranschaulichen durch Vertrauensband: Langfristprognosen werden immer unsicherer Statistische Tests

  33. 5.4 • Regressions- und Korrelationsanalyse erfordern metrische Variablen: - für ordinal- und nominalskalierte Variablen existieren ebenfalls Zusammen- hangmaße (Korrelationskoeffizienten) - auch für metrische Variablen, die nicht bivariat normalverteilt sind oder einen nichtlinearen (aber monotonen) Zusammenhang haben • Rang-Korrelationskoeffizient ρs nach Spearman: - gegeben ist STP einer bivariaten GG (X,Y) mit zumindest ordinalskalierten ZVA X und Y - STP-Werte xi und yi sind der Größe nach geordnet mit den Rangplätzen: - dann wird der Rang-Korrelationskoeffizient geschätzt durch: Zusammenhangmaße für nicht-metrische Variablen • große Rangpaardifferenzen durch die • Quadrierung relativ stark gewichtet • bei Gefahr von Ausreißern besser Rang-Korrelationskoeffizient τ von Kendall

  34. 5.4 • Rang-Korrelationskoeffizient ρs nach Spearman: - rs entspricht bei singulären Daten genau dem Produktmoment- Korrelationskoeffizient rxy nach Pearson wegen: - rs gibt Richtung und Stärke des monotonen Zusammenhangs an (gegensinnig, gleichsinnig): - Interpretation: - für Signifikanztest ist die folgende Prüfgröße unter H0 : ρs = 0 standardnormal- verteilt, wenn n ≥ 30 (ansonsten Werte aus Tabelle für Rs): Zusammenhangmaße für nicht-metrische Variablen

  35. 5.4 • Rang-Korrelationskoeffizient ρs nach Spearman: - Beispiel: gegeben 7 Rangpaare - bei Rangplätzen mit Bindungen ρs nach folgender Formel geschätzt: Zusammenhangmaße für nicht-metrische Variablen k : Anzahl der Bindungen bei X l : Anzahl der Bindungen bei Y txj : Anzahl der STP-Elemente mit gleichem Rang xj tyj _ Anzahl der STP-Elemente mit gleichem Rang yj

  36. 5.4 • Rang-Korrelationskoeffizient ρs nach Spearman: - Beispiel: Verstädterung und Natalität in Russland (eigentlich metrisch) - es besteht ein signifikanter monotoner Zusammenhang zwischen Natalität und Verstädterung (gegensinnig) Zusammenhangmaße für nicht-metrische Variablen Rangreihen mit Bindungen: X : 6-mal (10,5; 13,5; 16,5; 22,5; 25,5; 4,0) Y : 1-mal (14,5)

  37. 5.4 • Rang-Korrelationskoeffizient auch bei metrischen Variablen geeignet, die einen monotonen, aber keinen linearen Zusammenhang besitzen: - häufiger Fall in der Praxis wie z.B. Entwicklungsstand und medizinische Versorgung (metrisch) (s.u.) - Produktmoment-Korrelationskoeffizient liefert -0,41 und Signifikanzniveau 1 % - aber Voraussetzungen für Signifikanztest (bivariat normalverteilt) nicht erfüllt - ρxy = -0,41 vermittelt auch falschen Eindruck der Stärke des Zusammenhangs - denn ρs liefert -0,85 und erfasst somit den deutlichen Zusammenhang im Streudiagramm, den der lineare Ansatz von ρxy nicht erfasst - nach linearer Transformation (doppelt logarithmisch) liefert auch ρuv = -0,85 Zusammenhangmaße für nicht-metrische Variablen Originalachsen doppelt logarithmiert

  38. 5.4 • Kontingenzkoeffizient C nach Pearson: - gegeben 2 nominal-skalierte ZVA X und Y mit k bzw. l verschiedenen Ausprägungen in Kontingenztafel: - Unabhängigkeit der beiden ZVA lässt sich über χ2-verteilte Prüf- größe für mehrfach gestufte Merk- male testen: - Prüfgröße χ2 ist direkt proportional zu n: Zusammenhangmaße für nicht-metrische Variablen

  39. 5.4 • Kontingenzkoeffizient C nach Pearson: - ein mit n normiertes Zusammenhangmaß ermöglicht Vergleich von diversen Kontingenztafeln mit unterschiedlichem n: - es gilt C*  {0..1} mit möglichem Maximalwert bei: - damit ergibt sich der Kontingenzkoeffizient C zu: - C ist ebenfalls auf {0..1} normiert und gibt die Stärke des Zusammenhangs zwischen X und Y an, allerdings nicht die Richtung: aus Residualkomponente schließen: - die Nullhypothese H0 : C = 0 wird mit der χ2-verteilten Prüfgröße (s.o.) mit Φ = (k-1)•(l-1) Freiheitsgraden getestet Zusammenhangmaße für nicht-metrische Variablen

  40. 5.4 • Kontingenzkoeffizient C nach Pearson: - Beispiel Wahlverhalten in BRD: CDU-Anteil und ländlicher Raum: - unter der Nullhypothese (kein Zusammenhang) ergeben sich die erwarteten Häufigkeiten zu: - Prüfgröße: - kritischer Wert (zweiseitig, α = 5%): - CDU-Wähleranteil ist Funktion der Bevölkerungsdichte Zusammenhangmaße für nicht-metrische Variablen n = 94 Kreise k = 4 Anteil-Kategorien l = 3 Bevölkerungsdichte- kategorien

  41. 5.4 • Kontingenzkoeffizient C nach Pearson: - Stärke des Zusammenhangs gemessen durch Kontingenzkoeffizient C: - Richtung des Zusammenhangs wird deutlich, wenn die Residualkomponenten in Kontingenztafel eingetragen werden: - in ländlichen Regionen ist der Anteil der CDU-Wähler signifikant höher als in Verdichtungsräumen Zusammenhangmaße für nicht-metrische Variablen

  42. 5.4 • Vierfelder-Korrelationskoeffizient ρΦ: - Sonderfall der Kontingenztafel mit k = l = 2: dichotome Variablen X und Y - Vierfelder-Korrelationskoeffizient ergibt sich zu: - es gilt ρΦ {-1..1}: - für den Signifikanztest ist die folgende Prüf- größe χ2-verteilt mit Φ = 1 Freiheitsgrad: Zusammenhangmaße für nicht-metrische Variablen

  43. 5.4 • Vierfelder-Korrelationskoeffizient ρΦ: - Beispiel: Zusammenhang zwischen Erwerbsstruktur und Mechanisierungsgrad - Vierfelder-Korrelationskoeffizient: - Prüfgröße und kritischer Wert (zweiseitig, α = 5%): - es existiert ein signifikanter positiver Zusammenhang zwischen Erwerbs- struktur und Mechanisierungsgrad Zusammenhangmaße für nicht-metrische Variablen Y=1 : hoher Mechanisierungsgrad Y=0 : geringer Mechanisierungsgrad X=1 : Vollerwerbsbetrieb X=0 : Nebenerwerbsbetrieb

  44. 5 “Take-away“

  45. 5.5 • viele Prozesse lassen sich nicht durch ein lineares Modell abbilden: - Bsp.: Gesetz des abnehmenden Ertragszuwachses bei Düngung: - Bsp.: überwundene Distanz zum Einzelhandel (Wahrnehmungs-/Bewertungseffekt): - Bsp.: Natalität und Verstädterung: Nichtlineare Regression Sättigungsniveau lineare Einfachregression ist kein angemessenes Modell, obwohl Bestimmtheitsmaß und Korrelationskoeffizient sehr hoch sind

  46. 5.5 • es existieren mehrere Möglichkeiten, in solchen Fällen zu verfahren: (1) Zusammenhang wird stückweise linearisiert: (2) weitere Variablen werden einbezogen: (3) X und Y werden zu neuen Variablen X* und Y* transformiert, welche ihrer- seits einen linearen Zusammenhang besitzen: (4) Polynome höherer Ordnung werden angefittet: Nichtlineare Regression traditionell-islamische Regionen westlich-moderne Regionen multiple Regression: YNat.=a + b · XUrb. + c · XTrad.

  47. 5.5 • Variablentransformation: - Untersuchung zum Einkaufsverhalten in Finnland: - einfache Transformation mit logarithmus naturalis: - Regressionsgleichung für transformierte Werte: Nichtlineare Regression Originalstreudiagramm transformiertes Streudiagramm

  48. 5.5 • Variablentransformation: - nichtlineare Regressionsfunktion für Y erhält man durch Invertierung der Transformation: - Graph der nichtlinearen Regressionsfunktion: - beachte: geschätzt wird das Modell - folglich wird nicht die Summe sondern die Summe minimiert, es wird also nicht zwangsläufig die beste Exponentialfunktion für Y geschätzt - statistische Tests können nur für das Modell für Y* durchgeführt werden - Frage nach bester Schätzung für das Modell Nichtlineare Regression

  49. 5.5 Nichtlineare Regression • Variablentransformation: - es existieren einige weitere Funktionen, die sich durch Transformationen lineari- sieren lassen - mit linearer Einfachregres- sion lassen bereits viele Ty- pen von Zusammenhängen erfassen - allerdings Problem der Schätzung des Modells für Y - welche Funktionsklasse geeignet ist, kann nur optisch (Streudiagramm) oder iterativ entscheiden werden:

  50. 5.5 • Polynome höherer Ordnung: - Polynome sind ganzrationale Funktionen vom Typ: - Polynom 1. Grades: Gerade - Polynom 2. Grades: Parabel - Polynom 3. Grades: S-Kurve - Polynom 4. Grades … - zahlreiche Prozesse in der Natur können durch Polynom- funktionen angenähert werden Nichtlineare Regression Y X

More Related