1 / 26

Statistik Lektion 5

Statistik Lektion 5. Log-lineære modeller. Log-linære Modeller. Log-linære modeller bruges til at analysere symmetriske sammenhænge mellem to eller flere kategoriske variable. Kan ses som en udvidelse af c 2 -testet af uafhængighed. Kontingenstabel. Contingency : Mulighed/tilfælde

zaynah
Download Presentation

Statistik Lektion 5

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. StatistikLektion 5 Log-lineære modeller

  2. Log-linære Modeller • Log-linære modeller bruges til at analysere symmetriske sammenhænge mellem to eller flere kategoriske variable. • Kan ses som en udvidelse af c2-testet af uafhængighed.

  3. Kontingenstabel • Contingency: Mulighed/tilfælde • Kontingenstabel: Antal observationer (frekvenser) i klasser givet ved krydstabulering af et antal kategoriske variable. • Eksempel på to-vejstabel: • Det ”sædvanlige” c2-test for uafhængighed:

  4. Log-lineær Model • Antag vi har n personer og to kategoriske variable U (Uddannelse) og H (Holdning). • Sandsynligheden for at en tilfældigt valgt person har uddannelse u og holdning h er: • Den forventede frekvens for U=u og H=h er:

  5. Parametrisk form • Generelt antager vi at de log forventede frekvenser er givet ved • Præcist som i multipel og lineær regression har vi hoved-effekter (bu og bh) samt en interaktionseffekt (buh). • Og som sædvanligt bruger vi dummy variable som regneteknisk trick til at håndtere kategoriske variable. hvor xu, xh og xuh er dummy variable.

  6. Uafhængighed • To variable U og H er uafhængige hvis og kun hvis • For den log-lineære model betyder det: • Dvs. der er ikke et led der afhænger af bådeU og H.

  7. Estimation • I SPSS estimerer man en log-lineær model vha. Analyze→ Loglinear→ General. • Vælg ’Estimates’ Under ’Options’. • Resultat:

  8. Resultat • Estimerede model: • Fx: F11 = exp(7,097) = 1208.33 ≈ 1208 • Fx: F00 = exp(7,097-0.015-0.711+0.401) = 873.06 ≈ 873 • Bemærk: Der er hhv. 1208 og 873 i de to kombinationer.

  9. Modelform • Selv uden dummy variable bliver log-lineære modeller hurtigt besværlige at skrive op. • I log-lineære modeller er modellens struktur mere interessant end parametrenes værdi. • Derfor skriver vi modellen på modelformen U + H + U*H • Da modellen skal overholde det hierarkiske princip kan vi nøjes med at skrive U*H

  10. Opbygning af en model • Først vælge variable af interesse • Dernæst specificerer vi en startmodel, der indeholder de interaktioner der er af faglig interesse. • Dog skal startmodellen overholder det hierarkiske princip. • Indeholder startmodellen et interaktionsled, hvor alle variable indgår kaldes startmodellen en mættet model. • Med udgangspunkt i en startmodel laves en backwards søgning. • I hvert trin fjerner vi det led i modellen meddet højest p-værdi over 0.05 – under hensyntagen til det hierarkiske princip. • Dvs. vi fjerner det mindst statistisk signifikante modelled. • Resultatet kaldes slutmodellen.

  11. Større Eksempel • Analyse af sammenhængen mellem fire kategoriske variable: • B: Boligstandard: 0 = dårlig, 1 = acceptabel, 2 = god • H: Helbred: 0 = godt, 1 = dårligt • I: Isoleret: 0 = ja, 1 = nej • A: Angst: 0 = nej, 1 = ja • Vi starter med en mættet model, dvs. en model der indeholder interaktioner mellem alle fire variable. • Modelformel A*B*H*I

  12. Krydstabel • Krydstabel over de fire variable: • SPSS: Analyze→ DescriptiveStatistics→ Crosstabs • H i row, B i column, I iLayer 1 og A i Layer 2: • Hvad siger I? Hvad er sammenhængene?

  13. Startmodel • Startmodellen er en mættet model, dvs. • SPSS vælger som standard den sidste kategori som reference. • Alle parametre der involverer en eller flere referencekategorier sættes lig nul.  Konstant/skæring  Hovedeffekter  To-vejs-interaktioner  Tre-vejs-interaktioner  Fire-vejs-interaktioner

  14. Modelsøgning • SPSS: Analyze→ Loglinear→ Model selection • For hver variabel angiv variablens ”range”. • Under ’Model’ angiv startmodellen. • Default er en mættet startmodel. • Under ’Options’ kan I vælge ’Parameter estimates’

  15. Modelsøgning • Modelsøgningen følger ”backwards” metoden • I hvert trin tester SPSS hvilke led i modellen, der kan fjernes i henhold til det hierarkiske princip. • Eksempel: Efter tre trin i modelsøgningen har vi modellen: B*H*A + H*I*A + B*I • Fjerner H*I*A da mindst signifikant (og over 0.05). Ny model: B*H*A+ B*I+H*I+I*A

  16. Slutmodel • Modelsøgningen ender med en slutmodel: • Dvs. slutmodellen er: B*I + H*I + I*A + B*H + B*A + H*A • Et ”goodness-of-fit” test af slutmodellen: • Konklusion: Vi kan ikke afvise at modellen passer.

  17. Grafisk repræsentering • En grafisk repræsentation opnås ved at • Tegn en cirkel for hver variabel. • Forbind variable, der indgår i samme modelled. • Eksempel: Antag modellen er A*B + B*H*I A B I H

  18. Fortolkning af slutmodel • Uafhængighed: Hvis A indgår i modelformlen, men A ikke indgår i andre led (fx A*B, A*H, osv), så er A uafhængig. • Fx: A + B*H + B*I • Forklaret sammenhæng. Hvis B og H er ”forbundet” via andre led, men ikke indgår i samme led, så er en eventuel sammenhæng forklaret af andre variable. Dvs. slutmodellen må ikke indeholde fx B*H, B*H*A eller A*B*H*I. • Fx: B*I + A*I*H Sammenhægen mellem B og H er forklaret af I og A. A B I H A B I H

  19. Fortolkning af slumodel - fortsat • Homogen sammenhæng: Hvis A*H indgår i modellen, men A*H ikke indgår i mere komplicerede led, så er sammenhængen mellem A og H homogen. Dvs. modellen må ikke indeholder A*H*I, A*B*H eller A*B*H*I. • Fx: A*H + A*I*B + B*H • Heterogen sammenhæng: Hvis A*H indgår i modellen som en del af et mere kompliceret led, så er sammenhængen mellem A og H heterogen. Dvs. modellen skal indeholde A*B*I, A*B*H eller A*B*H*I • Fx: A*B*H + A*I*B I B A H Bemærk at graferne er ens!! I B A H

  20. Slutmodel: Fortolkning • I eksemplet var slutmodellen: B*I + H*I + I*A + B*H + B*A + H*A • Vi kan umiddelbart se, at vi ingen uafhængige variable har. • Af den grafiske repræsentation kan vi se, at der ingen forklarede sammenhænge optræder i modellen. • Vi har homogene sammenhænge mellem alle par af variable. A B I H

  21. Parameterestimater + Modelkontrol • Slutmodellen er et udtryk for sammenhænge mellem variablene i modellen. • Slutmodellen siger kun, at der er sammenhænge, men ikke om det fx er negative eller positive sammenhænge. • Generelt er det svært at fortolke parametre… • SPSS kan estimere parametre i en given log-lineær model: • Analyze→ Loglinear→ General • Under ’Model’ vælg ’Custom’ og indsæt slutmodellen (først hovedeffekter, derefter to-vejs interaktioner osv). • Under ’Options’ vælg ’Estimates’ og de to plot for ’Adjustedresiduals’

  22. SPSS…

  23. Estimater

  24. Flere estimater… • Hvad er den forventede frekvens for A=0, B=1, H=0 og I=1?

  25. Modelkontrol: Forventede vs Observerede • Ønskeligt: Expected ≈ Observed Variationen i Adj. Resid. er usystematisk.

  26. QQ-plot • Prikkerne bør ligge usystematisk omkring linjen

More Related