1 / 34

Statistik Lektion 4

Statistik Lektion 4. Variansanalyse Modelkontrol. Eksempel. Spørgsmål : Er der sammen-hæng mellem udetempe-raturen og forbruget af gas? . Y : Forbrug af gas ( gas ) X : Udetemperatur ( temp ) Scatterplot → SPSS: Estimerede model:

Download Presentation

Statistik Lektion 4

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. StatistikLektion 4 Variansanalyse Modelkontrol

  2. Eksempel • Spørgsmål: Er der sammen-hæng mellem udetempe-raturen og forbruget af gas? • Y: Forbrug af gas (gas) • X : Udetemperatur (temp) • Scatterplot→ • SPSS: • Estimerede model: • Både skæring (a) og hældning (b1) er signifikante! • Fortolkning? R2 = 0.467

  3. Eksempel – nu med isolering! • Y : Forbrug af gas, skala (gas) • XTemp : Udetemperatur, skala (temp) • XIsolering: {Før, Efter}, kategorisk (insulate) • OmkodXIsoleringtil binær dummy variabel XFør • XFør = 1 hvis XIsolering = Før • XFør = 0 hvis XIsolering = Efter • Model:

  4. Fortolkning af model • Når XIsolering = Før • Når XIsolering = Efter • To linjer med forskellig skæringspunkter! • Før angiver forskellen i skæringspunkt.

  5. To regressionslinjer med forskellige skæringer, men samme hældning Y Linje for XFør=1 a+ bFør Linje for XFør=0 a X1

  6. Eksempel og SPSS • SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’ • Som ventet er F-testet stadig signifikant. • Som ventet er R2vokset – med nye variable kan modellen aldrig forklare mindre end før. • Bemærk at R2 er meget større!

  7. Eksempel og SPSS • Estimater • Estimeret model: • Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):

  8. Vekselvirkning / Interaktion • Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. • Y, XTemp og XFør er som før. • Introducer: XTemp,Før= XTemp∙XFør • Model

  9. Fortolkning • Når XIsolering= Før: • Når XIsolering = Efter: • bTemp,Førbeskriver forskellen i hældningen mellem de to regressionslinjer.

  10. SPSS • Hoved-effekt: ”Ensom” variabel • Interaktionsled: Produkt af to eller flere variable • I SPSS: Under ’Model’ angiv hoved-effekter og interaktionsled. • Indsæt altid hoved-effekter først!

  11. Scatterplot → • Estimater • Estimeret model:

  12. Variansanalyse (ANOVA ) Analysis of Variance • Setup: Kun kategoriske forklarende variable • Eksempel: • Y: Månedlige forbrug (Amountspent - amtspend) • X1: Shoppestil (Shopping style - style) • Hver anden uge: Biweekly (B) • Hver uge: Weekly (W) • Ofte: Often (O) • Spørgsmål: Påvirker ’style’ forbruget?

  13. Grafisk overblik

  14. Omkodning vha. Dummies • For at kunne anvende en MLR model må den kategoriske style variabel omkodes til dummy variable: • To binære dummy variable: XB og XW • Bemærk: k kategorier omkodes til k-1 dummy variable • Model:

  15. Hypotesen • Model: • E[Y | Style = B] = a + bB • E[Y | Style = W] = a + bW • E[Y | Style = O] = a • Bemærk: bB og bW angiver hvordan Bi-weekly og Weekly adskiller sig fra Often. Often er referencekategori. • Hypotese: Middelværdien er den samme for alle styles: • H0: bB = bW = 0 • H1: bB 0 og/eller bW 0 • Afgøres vha. et F-test.

  16. SPSS • Fortolkning? a bB bW

  17. To-sidet Variansanalyse • Ide: Tage højde for køn • X2: Køn (Mand/Kvinde) (Gender - gender) • Omkodes til dummy variabel: XM = 1 hvis X2 = Mand • Model: • Tester to nul-hypoteser: • H0: bB = bW = 0 (Ingen effekt af style) • H0: bM = 0 (Ingen effekt af gender)

  18. SPSS

  19. Interaktion? • Er der en vekselvirkning mellem gender og style?

  20. Model med Interaktion • Model: • Hypotese: Ingen interaktion • H0: bBM = bWM = 0 • Hypotese: Ingen hovedeffekt af style • H0: bB = bW = 0 • Hypotese: Ingen hovedeffekt af gender • H0: bM = 0 • Det hierarkiske princip: • Det giver ikke mening at teste hovedeffekter, når de indgår i en interaktion.

  21. SPSS • Bemærk: Hoved-effekter før interaktioner!

  22. SPSS • Ifølge det hierarkiske princip er det kun test af interaktionen, der giver mening. • Konklusion?

  23. Estimerede model • Estimerede model er: • = 405,727 + 2,048 XM -61,751XB-44,006 XW+ 67,042XBM+ 77,196XWM

  24. Modelform • Modellen for forbrug forklaret ved shoppe-stil og køn kan altså skrives som • Her er xB, xW og xM dummy variable. • At skrive formlen op kan hurtigt blive uoverskueligt. • Modellens modelform kan skrives som Forbrug = Stil + Køn + Stil*Køn • I forbindelse med analyse eller fortolkning af model-parametre er det stadig nyttigt at skrive den matematiske formel op.

  25. Modelkontrol - Motivation • Vores konklusioner om variables vigtighed baseres på p-værdi. • p-værdien er en ”halesandsynlighed” i en fordeling, fx F-fordelingen. • F-fordelingen baserer sig på antagelser om at fejlleddet e er normalfordelt og har konstant varians (homoskedastisk). • Med andre ord: For at kunne stole på vores konklusioner, skal vi checke at antagelserne om normalfordelte og homoskedasktiskefejlled passer!

  26. Residual • I den sande model har vi • Det kan vi skrive om til • Residualet, ei, er derfor et estimat af fejlleddet: • Da ei’erne er normalfordelte bør ei’erne også være det (hvis modellen da ellers er korrekt).

  27. Modelkontrol • For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt! • Antagelse:Middelværdi-strukturen i modellen er • Kan være svært at checke direkte, hvis vi har mange forklarende variable. • Hvis middelværdi-strukturen i modellen er korrekt, så bør middelværdien af ei’erne være ca. nul uanset værdien af . ’erne eller x’erne. • Grafisk check: plot af afei mod .

  28. Modelkontrol • Antagelse: Fejlleddenee1,…, enuafhænige? • Der må ikke vær nogen systematisk sammenhæng mellem ei’erne og ’erne eller x’erne. • Grafisk check: Et plot at ei mod eller x. • Antagelse: Fejlleddenee1,…, en ~N(0,s2)? • Hvis sandt regner vi med at ei’erne er cirka normalfordelte. • Et plot at ei mod kan afsløre om variansen er konstant (homoskedatiskefejlled). • Et histogram eller QQ-plot kan afsløre om ei’erne er normalfordelte

  29. Residualplot Residualer Residualer √ ٪ 0 0 Homoskedastisk: Residualerne ser udtil at variereufahængigtafhinandenogx (eller ). Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig. ٪ Residualer Residualer ٪ 0 0 Tid Residualerneudviserlineær trend med tiden (eller en andenvariabel vi ikkeharbrugt). Detteindikerer at tidskulleinkluderesimodellen. Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

  30. Eksempel: Kriminalitet og Urbanisering • Data for n = 67 distrikter i Florida. • yi= Crime rate • xi= Urbanisering • Model: • Hvor ei ~N(0,s2)

  31. Residualer i SPSS • I ’Univariate’ vinduet vælges ’Save…’ • I ’Save’ vinduet vælges ’Unstandardized’ både under • ’Reresiduals’ (ei’erne) og • ’PredictedValues’ ( ’erne) .

  32. Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder • residualer (’RES_1’) • prædiktioner (’PRE_1’) . • Derefter kan man fx lave scatter plots.

  33. Scatter plot af • residualer (ei’erne) mod ’urbanisering’ (xi’erne). • residualer (ei’erne) mod prædiktionerne ( ’erne) . • Ser jo ganske usystematisk ud med jævn variation!

  34. Histogram af residualer Histogrammet burde ligne en normalfordeling. Det gør det ikke helt… men det er ikke katestrofalt.

More Related