SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (10. forelesning)

SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (10. forelesning) 1: Mer regresjonskritikk ►Innflytelsesrike enheter ►Multikollinaritet Oppsummeringer av forutsetningene 2: Samvariasjon pluss pluss – en oppklaring 3: Semesteroppgave: Tillit til EU 4: Oppgaver JFRYE2005

Regresjonskritikk – oppsummering fra forrige gang Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer 1: Krav til spesifikasjon av modellen 2: Gauss-Markov-kravene 3: Normalfordelte feilledd 4: Andre vurderinger Innflytelsesrike enheter Multikollinaritet (Kapittel 4 i Hamilton) JFRYE2005

’Uteliggere’ Hva er en ’uteligger’? En enhet som har en uvanlig verdi på en variabel NB1: Relative vurderinger NB2: En enhet kan være uteligger i en sammenheng – men ikke nødvendigvis også i andre sammenhenger JFRYE2005

Uteliggerproblematikken Relevant begrep både i forhold til original-variablene og feilleddene. Desto mer relevant: En selvsagt tendens til at en enhet som har ’uteliggende’ verdi på en eller flere av X’ene, også blir uteligger i feilledd-fordelingene. JFRYE2005

Vi fokuserer primært på utelliggere i feilledd-fordelingene, ettersom disse skaper flere problemer for OLS-regresjonen: Heteroskedastisitet Ikke-normalfordelte feil (Men fortsatt er det ofte nyttig å gå tilbake til X-fordelingene, for å ’forstå’ og løse problemet) JFRYE2005

Uteliggere og heteroskedastisitet Tendens til sammenfall – men ikke med nødvendighet JFRYE2005

Absoluttverdien av ei (Basert på regresjonen i tabell 3.2 i Hamilton) JFRYE2005

Uteliggere og normalfordeling Enda sterkere tendens til sammenfall (– men fortsatt ikke med absolutt nødvendighet) JFRYE2005

Diagram av residualen viser: Tunge halar, mange utliggarar og svakt positiv skeiv fordeling

Innflytelsesrike enheter Skiller analytisk mellom Uvanlige enheter Og enheter som faktisk har stor innflytelse på resultatet Selv om det altså ofte er de samme enhetene… JFRYE2005

120 kg 85 kg 50 kg 150 cm 180 cm 210cm JFRYE2005

Innflytelse ► En enhet har innflytelse dersom regresjonsresultatet endrar seg når enheten utelates ► Noen enheter har uvanlig stor innflytelse på grunn av ♦ Uvanleg stor y-verdi ♦ Uvanleg stor verdi på ein x-variabel ♦ Uvanlege kombinasjonar av variabelverdiar

EN DIGRESJON… • For det første: henvisning & takk til Erling Berge (igjen: se hans forelesninger, for en utvidet gjennomgang, eller for en alternativ fremstilling, eller som repitisjon) • Regresjonens dialekter – som man skal/bør/må lære seg. • Eks.: Påvirkning, case, skeivhet… JFRYE2005

Mål på innflytelsesrike enheter DFBETAS Leverage Cook’s D JFRYE2005

DFBETAS • Vi ser om eit case har påverknad ved å samanlikne regresjonar med og utan eit bestemt case. Ein kan t.d. • Sjå på skilnaden mellom bk og bk(i) der case nr i er utelate i estimeringa av den siste koeffisienten. • Denne skilnaden målt relativt til standardfeilen til bk(i) vert kalla DFBETASik

DFBETASik se(i) er residualen sitt standardavvik når case nr i er utelate frå regresjonen RSSk er Residual Sum of Squares frå regresjonen av xk på alle dei andre x-variablane

DFBETASik : bk bk(i) outlier One case may make a lot of difference

Kva er ein stor DFBETAS? • DFBETASik vert rekna ut for kvar uavhengig variabel og kvart einaste case. Vi kan ikkje inspisere alle verdiane • Tre kriterium for å finne dei store verdiane vi treng sjå på (ingen av dei treng vere problematiske) • Ekstern skalering: lDFBETASikl > 2/ • Intern skalering: Q1-1.5IQR < lDFBETASikl < Q3 + 1.5IQR (alvorleg utliggjar i box-plott av DFBETASik) • Gap i fordelinga av DFBETASik

Potensiell påverknad: LEVERAGE • Den samla påverknaden frå ein bestemt kombinasjon av x-verdiar på eit case måler vi med hi ”hatt-observatoren” • hi varierer frå 1/n til 1. Den har eit gjennomsnitt på K/n (K = # parametrar) • SPSS rapporterer den sentrerte hi dvs. (hi – K/n), vi kan kalle denne for hci

Kva er stor verdi av leverage? • Slik som med DFBETAS kan det stillast opp alternative kriterium. Dei er alle avhengig av utvalsstorleiken n. • Dersom hi > 2K/n (eller hci > K/n) finn vi dei ca 5% største hi ; alternativt • Dersom max (hi) ≤ 0.2 har vi ikkje problem • Dersom 0.2 ≤ max (hi) ≤ 0.5 er der ein viss risiko for problem • Dersom 0.5 ≤ max (hi) har vi truleg eit problem

Sentrert leverage (hci) frå regresjonen i tabell 3.2 i Hamilton Max av hci er 0.102

The difference between influence and leverage Figur 4.14 i Hamilton

Leverage observatoren finst i mange andre case observatorar • Variansen til den i-te residualen • Standardisert residual (*ZRESID i SPSS) • Studentifisert residual (*SRESID i SPSS) • og hugs at standardavviket til residualen er

Total påverknad: Cook’s Di • Cook’s distanse Di måler påverknad på heile modellen, ikkje på dei einskilde koeffisientane slik som DFBETASik

Kva er ein stor Di ? • Det kan vere verd å sjå på alle • Di > 1 alternativt • Di > 4/n, gir dei ca 5% største Di • Sjølv om eit case har låg Di kan det likevel vere slik at det verkar inn på storleiken til einskildkoeffisientar (har stor DFBETASik)

Cook’s distanse Di frå regresjonen i tabell 3.2 i Hamilton Sjå også tabell 4.4 (s133) i Hamilton

Hva er årsaken bak innflytelsesrike enheter? 1) Målefeil 2) Substansielle forhold Skal man ta de innflytelsesrike enhetene ut av analysen? Svar: Ja (noen ganger), nei (andre ganger), og både og (som regel) Alternative fremgangsmåter: Transformasjoner Robust regresjon JFRYE2005

Vurderingsstrategier Små / store utvalg? Enkelte enheter vs. grupper av enheter? 1: Vurder alle tre indikatorene samlet 2: Søk substansielle forklaringer (og unngå formalistiske/mekaniske prosedyrer) 3: Utgangspunkt for modellforbedringer 4: Utgangspunkt for nyanserte tolkninger Satt på spissen: Et håp om ikke å finne innflytelsesrike enheter er som et håp om å finne at ’kjedsomhet’ ved det sosiale fenomenet man studerer. JFRYE2005

Multikollinaritet JFRYE2005

Multikollinearitet • svært høge korrelasjonar mellom x-variablar • sjekk korrelasjonar mellom parameterestimat • sjekk om toleransen (den delen av variasjonen i x som ikkje er felles med andre variablar) er mindre enn t.d. 0,1 • VIF= variansinflasjonsfaktor= 1/toleranse • dersom multikollinearitet skuldast kvadrering av variablar eller interaksjonsledd er det ikkje problematisk

Toleranse • Mengda av variasjon i ein variabel xk som er unik for variabelen vert kalla toleransen til variabelen • La R2k vere determinasjonskoeffisienten i regresjonen av xk på dei andre x-variablane. Dei andre x-variablane forklarer andelen R2k av variasjonen i xk. • Da er 1- R2k den unike variasjonen, dvs. Toleransen = 1- R2k • Ved perfekt multikollinearitet vil R2k = 1 og toleransen = 0 • Låge verdiar av toleransen gjer regresjonsresultata mindre presise (større standardfeil)

VariansInflasjonsFaktoren (VIF) • Her er 1/toleransen = 1/(1-R2k) = VIF • Om alt anna er likt vil lågare toleranse (større VIF) hos xk gi høgare standardfeil for bk [den aukar med ein faktor lik kvadratrota av (VIF)] • standardfeilen til regresjonskoeffisienten bk kan skrivast

Indikatorar på multikollinearitet • Beste indikatoren er toleransen eller VIF (denne er basert på R2k ) • Andre indikatorar er • Korrelasjon mellom einskildvariable (upåliteleg) • Inklusjon / eksklusjon av einskildvariablar gir store endringar i effektane til andre variablar • Uventa forteikn til effekten av ein variabel • Standardiserte regresjonskoeffisientar større enn 1 eller mindre enn -1 • Korrelasjon mellom parameterestimat

Toleranse og VIF frå regresjonen i tabell 3.2 i Hamilton

Kva er for låg toleranse? Kvadratrota av VIF Når R2k > 0,9 er toleransen < 0,1 og VIF > 10 Multiplikatoren for standardfeilen er da kvadratrota av VIF (ca 3.2)

Når er multikollinearitet eit problem? • Det er ikkje eit problem dersom årsaka er kurvelinearitet eller interaksjonsledd i modellen. Men vi må i testinga ta omsyn til at parameterestimat for variablar med høg VIF er upresise. Vi testar dei som gruppe med F-testen • Når det skuldast at to variablar måler same omgrep kan den eine droppast eller dei kan kombinerast til ein indeks • Det er eit problem dersom vi treng estimat av variablane sine separate effektar (når kunnskap om deira samla effekt ikkje er nok)

OPPSUMMERING AV ’PROBLEMENE’ JFRYE2005

HUSK: TRE TYPER PROBLEMER De mest korrekte (sannsynlige) estimatene? De mest effektive estimatene Troverdige t- og F-tester? (Gode nok estimater) JFRYE2005

Konsekvensar av problem (Hamilton, s. 113) I TILLEGG: INNFLYTELSESRIKE ENHETER

SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (10. forelesning)

SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (10. forelesning)

Presentation Transcript

Anvendt multimedieteori og metode 2 Efterår 2001

Forelesning 6 HSTAT1101

Forelesning 7 HSTAT1101

Målgruppeanalyse

6. Forelesning

Forelesning 4 HSTAT1101

TMR 4247 Marin teknikk 3 Forelesning 3: Propellteori

Forelesning 8 HSTAT1101

Årlig vekst i arbeidsstyrken, 2005 – 2030. Middelalternativet Kilde: Statistisk sentralbyrå.

Anvendt Statistik Lektion 6

Masterprogram MAN 2832 Anvendt økonomi og ledelse

Strategisk bakgrund för modern marknadsföring av statistisk information

Anvendt Statistik Lektion 4

Anvendt Statistik Lektion 10

Anvendt medialisering ved Fredda Galea

MET 2211 Statistikk og dataanalyse

Kvantitativ dataanalyse: Prinsipper og eksempler

Regnskapsorganisasjon Første forelesning

MEVIT03-MVIT forelesning 6

Lars Østby Statistisk sentralbyrå ssb.no/innvandring/

Forelesning 4. mai 2010

Agenda