420 likes | 640 Views
SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (10. forelesning) 1: Mer regre s jonskritikk ► Innflytelsesrike enheter ► Multikollinaritet Oppsummeringer av forutsetningene 2: Samvariasjon pluss pluss – en oppklaring 3: Semesteroppgave: Tillit til EU 4: Oppgaver.
E N D
SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (10. forelesning) 1: Mer regresjonskritikk ►Innflytelsesrike enheter ►Multikollinaritet Oppsummeringer av forutsetningene 2: Samvariasjon pluss pluss – en oppklaring 3: Semesteroppgave: Tillit til EU 4: Oppgaver JFRYE2005
Regresjonskritikk – oppsummering fra forrige gang Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer 1: Krav til spesifikasjon av modellen 2: Gauss-Markov-kravene 3: Normalfordelte feilledd 4: Andre vurderinger Innflytelsesrike enheter Multikollinaritet (Kapittel 4 i Hamilton) JFRYE2005
’Uteliggere’ Hva er en ’uteligger’? En enhet som har en uvanlig verdi på en variabel NB1: Relative vurderinger NB2: En enhet kan være uteligger i en sammenheng – men ikke nødvendigvis også i andre sammenhenger JFRYE2005
Uteliggerproblematikken Relevant begrep både i forhold til original-variablene og feilleddene. Desto mer relevant: En selvsagt tendens til at en enhet som har ’uteliggende’ verdi på en eller flere av X’ene, også blir uteligger i feilledd-fordelingene. JFRYE2005
Vi fokuserer primært på utelliggere i feilledd-fordelingene, ettersom disse skaper flere problemer for OLS-regresjonen: Heteroskedastisitet Ikke-normalfordelte feil (Men fortsatt er det ofte nyttig å gå tilbake til X-fordelingene, for å ’forstå’ og løse problemet) JFRYE2005
Uteliggere og heteroskedastisitet Tendens til sammenfall – men ikke med nødvendighet JFRYE2005
Absoluttverdien av ei (Basert på regresjonen i tabell 3.2 i Hamilton) JFRYE2005
Uteliggere og normalfordeling Enda sterkere tendens til sammenfall (– men fortsatt ikke med absolutt nødvendighet) JFRYE2005
Diagram av residualen viser: Tunge halar, mange utliggarar og svakt positiv skeiv fordeling
Innflytelsesrike enheter Skiller analytisk mellom Uvanlige enheter Og enheter som faktisk har stor innflytelse på resultatet Selv om det altså ofte er de samme enhetene… JFRYE2005
120 kg 85 kg 50 kg 150 cm 180 cm 210cm JFRYE2005
120 kg 85 kg 50 kg 150 cm 180 cm 210cm JFRYE2005
120 kg 85 kg 50 kg 150 cm 180 cm 210cm JFRYE2005
Innflytelse ► En enhet har innflytelse dersom regresjonsresultatet endrar seg når enheten utelates ► Noen enheter har uvanlig stor innflytelse på grunn av ♦ Uvanleg stor y-verdi ♦ Uvanleg stor verdi på ein x-variabel ♦ Uvanlege kombinasjonar av variabelverdiar
EN DIGRESJON… • For det første: henvisning & takk til Erling Berge (igjen: se hans forelesninger, for en utvidet gjennomgang, eller for en alternativ fremstilling, eller som repitisjon) • Regresjonens dialekter – som man skal/bør/må lære seg. • Eks.: Påvirkning, case, skeivhet… JFRYE2005
Mål på innflytelsesrike enheter DFBETAS Leverage Cook’s D JFRYE2005
DFBETAS • Vi ser om eit case har påverknad ved å samanlikne regresjonar med og utan eit bestemt case. Ein kan t.d. • Sjå på skilnaden mellom bk og bk(i) der case nr i er utelate i estimeringa av den siste koeffisienten. • Denne skilnaden målt relativt til standardfeilen til bk(i) vert kalla DFBETASik
DFBETASik se(i) er residualen sitt standardavvik når case nr i er utelate frå regresjonen RSSk er Residual Sum of Squares frå regresjonen av xk på alle dei andre x-variablane
DFBETASik : bk bk(i) outlier One case may make a lot of difference
Kva er ein stor DFBETAS? • DFBETASik vert rekna ut for kvar uavhengig variabel og kvart einaste case. Vi kan ikkje inspisere alle verdiane • Tre kriterium for å finne dei store verdiane vi treng sjå på (ingen av dei treng vere problematiske) • Ekstern skalering: lDFBETASikl > 2/ • Intern skalering: Q1-1.5IQR < lDFBETASikl < Q3 + 1.5IQR (alvorleg utliggjar i box-plott av DFBETASik) • Gap i fordelinga av DFBETASik
Potensiell påverknad: LEVERAGE • Den samla påverknaden frå ein bestemt kombinasjon av x-verdiar på eit case måler vi med hi ”hatt-observatoren” • hi varierer frå 1/n til 1. Den har eit gjennomsnitt på K/n (K = # parametrar) • SPSS rapporterer den sentrerte hi dvs. (hi – K/n), vi kan kalle denne for hci
Kva er stor verdi av leverage? • Slik som med DFBETAS kan det stillast opp alternative kriterium. Dei er alle avhengig av utvalsstorleiken n. • Dersom hi > 2K/n (eller hci > K/n) finn vi dei ca 5% største hi ; alternativt • Dersom max (hi) ≤ 0.2 har vi ikkje problem • Dersom 0.2 ≤ max (hi) ≤ 0.5 er der ein viss risiko for problem • Dersom 0.5 ≤ max (hi) har vi truleg eit problem
Sentrert leverage (hci) frå regresjonen i tabell 3.2 i Hamilton Max av hci er 0.102
The difference between influence and leverage Figur 4.14 i Hamilton
Leverage observatoren finst i mange andre case observatorar • Variansen til den i-te residualen • Standardisert residual (*ZRESID i SPSS) • Studentifisert residual (*SRESID i SPSS) • og hugs at standardavviket til residualen er
Total påverknad: Cook’s Di • Cook’s distanse Di måler påverknad på heile modellen, ikkje på dei einskilde koeffisientane slik som DFBETASik
Kva er ein stor Di ? • Det kan vere verd å sjå på alle • Di > 1 alternativt • Di > 4/n, gir dei ca 5% største Di • Sjølv om eit case har låg Di kan det likevel vere slik at det verkar inn på storleiken til einskildkoeffisientar (har stor DFBETASik)
Cook’s distanse Di frå regresjonen i tabell 3.2 i Hamilton Sjå også tabell 4.4 (s133) i Hamilton
Hva er årsaken bak innflytelsesrike enheter? 1) Målefeil 2) Substansielle forhold Skal man ta de innflytelsesrike enhetene ut av analysen? Svar: Ja (noen ganger), nei (andre ganger), og både og (som regel) Alternative fremgangsmåter: Transformasjoner Robust regresjon JFRYE2005
Vurderingsstrategier Små / store utvalg? Enkelte enheter vs. grupper av enheter? 1: Vurder alle tre indikatorene samlet 2: Søk substansielle forklaringer (og unngå formalistiske/mekaniske prosedyrer) 3: Utgangspunkt for modellforbedringer 4: Utgangspunkt for nyanserte tolkninger Satt på spissen: Et håp om ikke å finne innflytelsesrike enheter er som et håp om å finne at ’kjedsomhet’ ved det sosiale fenomenet man studerer. JFRYE2005
Multikollinaritet JFRYE2005
Multikollinearitet • svært høge korrelasjonar mellom x-variablar • sjekk korrelasjonar mellom parameterestimat • sjekk om toleransen (den delen av variasjonen i x som ikkje er felles med andre variablar) er mindre enn t.d. 0,1 • VIF= variansinflasjonsfaktor= 1/toleranse • dersom multikollinearitet skuldast kvadrering av variablar eller interaksjonsledd er det ikkje problematisk
Toleranse • Mengda av variasjon i ein variabel xk som er unik for variabelen vert kalla toleransen til variabelen • La R2k vere determinasjonskoeffisienten i regresjonen av xk på dei andre x-variablane. Dei andre x-variablane forklarer andelen R2k av variasjonen i xk. • Da er 1- R2k den unike variasjonen, dvs. Toleransen = 1- R2k • Ved perfekt multikollinearitet vil R2k = 1 og toleransen = 0 • Låge verdiar av toleransen gjer regresjonsresultata mindre presise (større standardfeil)
VariansInflasjonsFaktoren (VIF) • Her er 1/toleransen = 1/(1-R2k) = VIF • Om alt anna er likt vil lågare toleranse (større VIF) hos xk gi høgare standardfeil for bk [den aukar med ein faktor lik kvadratrota av (VIF)] • standardfeilen til regresjonskoeffisienten bk kan skrivast
Indikatorar på multikollinearitet • Beste indikatoren er toleransen eller VIF (denne er basert på R2k ) • Andre indikatorar er • Korrelasjon mellom einskildvariable (upåliteleg) • Inklusjon / eksklusjon av einskildvariablar gir store endringar i effektane til andre variablar • Uventa forteikn til effekten av ein variabel • Standardiserte regresjonskoeffisientar større enn 1 eller mindre enn -1 • Korrelasjon mellom parameterestimat
Kva er for låg toleranse? Kvadratrota av VIF Når R2k > 0,9 er toleransen < 0,1 og VIF > 10 Multiplikatoren for standardfeilen er da kvadratrota av VIF (ca 3.2)
Når er multikollinearitet eit problem? • Det er ikkje eit problem dersom årsaka er kurvelinearitet eller interaksjonsledd i modellen. Men vi må i testinga ta omsyn til at parameterestimat for variablar med høg VIF er upresise. Vi testar dei som gruppe med F-testen • Når det skuldast at to variablar måler same omgrep kan den eine droppast eller dei kan kombinerast til ein indeks • Det er eit problem dersom vi treng estimat av variablane sine separate effektar (når kunnskap om deira samla effekt ikkje er nok)
OPPSUMMERING AV ’PROBLEMENE’ JFRYE2005
HUSK: TRE TYPER PROBLEMER De mest korrekte (sannsynlige) estimatene? De mest effektive estimatene Troverdige t- og F-tester? (Gode nok estimater) JFRYE2005
Konsekvensar av problem (Hamilton, s. 113) I TILLEGG: INNFLYTELSESRIKE ENHETER