Inferens fra stikprøve til population

Kvantitativ metode del 1Gymnasielærer-kursus forår 2007Aalborg UniversitetPopulation, stikprøve og signifikansMandag den 19. marts, kl. 15.00ved Henrik Lolle

Inferens fra stikprøve til population • Nogle gange har man i samfundsvidenskabelig forskning adgang til data fra hele den ’population’, der skal undersøges. Et sådan datasæt kaldes et ’census’. • Som oftest er dette imidlertid ikke muligt. Så må man lade sig nøje med en stikprøve, der er udtrukket fra populationen. • Men det er stadigvæk ens mål at besvare spørgsmål, der angår populationen og ikke alene de forhold, der angår stikprøven. Stikprøven som sådan er ikke vældig interessant.

Stikprøve-design Ikke sandsynlighedsudvælgelse Den enkelte enheds sandsynlighed for udvælgelse til stikprøven kendes ikke! - ifm. pilotundersøgelse el. rent teknisk afprøvning - hvor populationen ikke kan afgrænses særlig præcist - særlige tilfælde af meningsmålinger - osv. Stikprøver Sandsynlighedsudvælgelse Den enkelte enheds sandsynlighed for udvælgelse til stikprøven kendes! - Simpel tilfældig udvælgelse - Systematisk udvælgelse - Stratificeret udvælgelse - Klyngeudvælgelse - Flertrins kombinationsformer

Hvordan stikprøveudtagelse sker i hovedtræk

Udvalgsramme ° × ° Stikprøve × × ° × × ° ° × × × ° ° ° × ° ° × × × × × ° ° × ° ° ° × ° × ° × × ° ° × × ° × ° ° × ° × ° ° ° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Simpel tilfældig eller systematisk udvælgelse Enhederne i udvalgsrammen nummereres, og ved simpel tilfældig udvælgelse udtrækkes dernæst en række helt tilfældige numre (f.eks. ved computer-generering af tilfældige numre). Ved systematisk udvælgelse udtages i stedet enheder med et bestemt mellemrum, sådan som det er illustreret herunder. Mellemrummet bestem-mes ved at dividere antal enheder i udvalgsrammen med det ønskede antal i stik-prøven, og der startes ved et tilfældigt nummer mellem én og det, der skal springes med. De to måder kan som regel sammenlignes mht. sikkerheden i inferering til populationen.

Proportional stratificeret udvælgelse Populationen/udvalgsrammen inddeles i et antal strata på baggrund af en eller flere variable, og dernæst udtrækkes simpelt og tilfældigt et antal enheder fra hvert strata, sådan at proportionerne svarer nøjagtigt til proportionerne i populationen/udvalgsrammen.I eksemplet her kunne der f.eks. være tale om en strataopdeling på køn.

Disproportional stratificeret udvælgelse Populationen/udvalgsrammen inddeles i et antal strata på baggrund af en eller flere variable, og dernæst udtrækkes - f.eks. simpelt og tilfældigt - et antal enheder fra hvert strata, men sådan at proportionerne ikke svarer til propor-tionerne i populationen/udvalgs-rammen. Benyttes ofte, når et eller flere for analysen væsentlige strata indeholder for få observationer. Skal der i analysen f.eks. beregnes populationsgennemsnit for en variabel, vægtes analyse-enhederne, sådan at proportionerne igen passer med populationen.

Klyngeudvælgelse 1. trin 2. trin 1 × 2 1 × × × × ° ° ° ° × ° ° × × ° ° ° ° × ° ° × ° × ° ° ° × × × × × ° × × ° × × × × × 3 4 4 ° × × × ° ° ° ° ° ° ° × ° ° ° ° × × × ° ° ° × × ° ° × × × × ° Ved klyngeudvælgelse inddeles populationen i et antal klynger (ofte bl.a. baseret på geografi), og til forskel fra stratificering udvælges tilfældigt et vist antal hele klynger. Er der tale om enkelttrins klyngeudvælgelse, udtages samtlige enheder i de udvalgte klynger til stikprøven. Er der derimod tale om flertrins klyngeudvælgelse, foretages der stikprøveudtagning fra de udtrukne klynger - f.eks. simpelt tilfældigt. Formålet ved klyngeudvælgelse er ofte at få bragt udgifterne ned ved at centrere interviewene på bestemte steder samt at sikre sig en bred geografisk dækning.

Sandsynlighed Hvad betyder sandsynlighed, og hvordan knyttes den til forskellige typer af variabler? • Sandsynligheden af, at en hændelse vil indtræffe, er dens relative frekvens over et langt forløb. • Diskrete variable: Der knyttes sandsynligheder til hver enkelt hændelse i udfaldsrummet. • Kontinuerte variable: Der knyttes sandsynligheder til et intervaller af værdier. • Summen af sandsynligheder giver altid værdien 1.

Grafisk visning af sandsynlighedsfordelinger Sandsynlighedsfordelinger af diskrete variable vises med søjlediagrammer, mens sandsynlighedsfordelinger for kontinuerte variable vises med kurver. Sandsynligheden aflæses direkte på højden af søjlen, f.eks. ca. 0,55 for ingen børn i en tilfældig familie. Sandsynlighed for, at en tilfældig valgt person vil være mellem 20 og 50 år gammel er lig med det viste areal, ca. 0,45 (eller 45 pct.) 1,0 0,5 0 1 2 3 4 5+ 0 20 50 Antal børn i familien Alder

Sampling distribution • Sampling distribution (eller sampling fordelingen) er en sandsynligheds-fordeling, der bestemmer sandsynligheder for værdier af en stikprøve-statistik – f.eks. gennemsnit, proportion, korrelationskoefficient eller regressionskoefficient. • Stikprøvestatistikken kan betragtes som en variabel, der varierer fra stikprøve til stikprøve, men hvor gennemsnittet af disse stikprøve-statistikker ved en uendelig lang række af stikprøver vil være lig med statistikken i populationen. • Standardafvigelsen til en sandsynlighedsfordeling af stikprøvestatistikker kaldes for standardfejlen. • Standardfejlen kan betragtes som den typiske fejl, man begår ved estimation af statistikken ved den respektive stikprøvestørrelse. • For gennemsnit er standardfejlen lig med:

Den centrale grænseværdisætning(Central Limit Theorem) For tilfældig stikprøveudtrækning gælder, at når stikprøve-størrelsen ’n’ vokser, så vil fordelingen af stikprøvegennemsnit ’ ’ tilnærme sig en normalfordeling. • Dette gælder uanset formen af populationens fordeling. • I de fleste tilfælde er en stikprøve på omkring 30 cases være nok til en god tilnærmelse til normalfordelingen af stikprøvegennemsnittene. • 95 pct. af stikprøverne, som man hypotetisk udtrækker, vil have et gennemsnit, der ligger højst to standardfejl fra populationsgennemsnittet. • Jo større stikprøve, jo mindre standardfejl og jo større præcision. Tilsvarende gælder for andele. Andelen, der f.eks. angiver at ville stemme på Socialdemokratiet, vil ligesom et gennemsnit variere omkring den sande andel, og den vil fordele sig tilnærmelsesvist normalt, hvis der er tale om store stikprøver. Her defineres ’store’ stikprøver ved, at der skal være minimum 10 enheder i hver af de to grupper.

Normalfordelingen Eksempler på forskellige normalfordelinger Fra: http://espse.ed.psu.edu/statistics/statlets/free/WebStatFX.html

Eksempel fra ISSP Religion 1998 Disse andelsstørrelser vil variere fra én stikprøve til en anden. Nu er det sjældent, at man har mere end én stikprøve, men viden om denne variation mellem de hypotetisk gentagne stikprøver gør, at man kan udtale sig med en vis statistisk sikkerhed om andele i populationen.

Hvor stor en andel tror på Gud i populationen? Andelen på 0,528 er det bedste bud på andelen i populationen, men hvor sikkert er det? Man ved fra den centrale grænseværdisætning, at stikprøveestimatet ved gentagne stikprøveudtræk vil fordele sig tilnærmelsesvist ’normalt’, og man kan også anslå standardafvigelsen på denne hypotetiske fordeling. Denne kaldes, som nævnt, også for standardfejlen. Standardfejlen approksimeres i til:

Stikprøve-udtrækning Der findes på nettet en række forskellige sider, hvor der grafisk gives en pædagogisk visning af mekanismerne i stikprøveudtræk, og hvor der gives indblik i usikkerhedsaspekter. Simulatoren til højre herfor er en af de absolut bedste (se link nedenfor!). http://onlinestatbook.com/stat_sim/sampling_dist/index.html

Udledninger af den centrale grænseværdisætning Omskrivning af en regel fra den centrale grænseværdisætning: • Følgende er direkte udledt fra sætningen: 95 pct. af stikprøverne, som man hypotetisk udtrækker, vil have en andel på den pågældende variabel, der ligger højst to standardfejl fra den sande andel. • Følgende kan udledes fra ovenstående: Hvis man går to standardfejl på hver side af andelen i stikprøven, vil man med 95 pct. sikkerhed indfange andelen i populationen.

Andel i populationen, der tror på Gud 95 pct. sikkerhedsinterval for andele: Læg mærke til, at det helt nøjagtigt er 1,96 standardfejl, der skal til for at ’indfange’ 95 pct., altså ikke præcis 2. Intervallet kan udregnes til: Med 95 pct. sikkerhed vil andelen, der tror på Gud, ligge mellem ca. 0,50 og 0,56. Dette giver et indblik i sikkerheden i den slags survey. Og det er mere dette, end det er de præcise talstørrelser, der skal bides mærke i her.

Signifikanstest for andele • 95 pct. sikkerhedsintervallet skred netop ind over andelen på 0,5. Dvs. med 95 pct. sikkerhed vil man ikke kunne sige, hvorvidt populationsandelen ligger på den ene eller anden side af de halvtreds, blot at den ligger ret tæt på. • Man kan også foretage en egentlig test af, om stikprøveresultatet er så meget større end 0,5, at man med en vis statistisk sikkerhed vil kunne afvise hypotesen om, at andelen ligger på 0,5 eller derunder. • Man skal først finde ud af, hvor langt ude de 0,528 ligger ift. 0,5, udtrykt i antal standardfejl. De 0,5 kaldes for nulhypotesen. Derefter kan man ved hjælp af normalfordelingens egenskaber finde sandsynligheden for, at man i stikprøven får et resultat på 0,528 eller endnu mere afvigende fra de 0,5, under forudsætning af at populationens andel faktisk er 0,5. Hvis den sandsynlighed er lille, dvs. hvis det ikke virker særligt sandsynligt, vil man afvise hypotesen om, at andelen i populationen er 0,5. Og havde man beregnet tilsvarende sandsynligheder for enhver nulhypotese mindre end 0,5, ville sandsynligheden blot være blevet mindre.

Selve beregningen af teststørrelsen (z) Via nedenstående formel beregnes afstanden mellem nulhypotese og faktisk værdi, udtrykt i antal standardfejl (z): Eller ved statistiske termer:

Hvor sandsynlig er den beregnede teststørrelse? Under forudsætning af at nulhypotesen om en andel på 0,5 er korrekt, gælder følgende: Sandsynligheden for at finde en andel i en stikprøve af denne størrelse, der afviger mindst lige så meget som de 0,528 fra nulhypotesen på 0,5 vil have en sandsynlighed på ca. 0,06. Altså ikke overvældende sandsynligt, men dog heller ikke signifikant på 0,05-niveau. http://davidmlane.com/hyperstat/z_table.html

Opslag i z-tabel som alternativ Læg mærke til, at resultatet her er halvt så stort. Det skyldes, at der her kun ses sandsynligheden for den ene ’hale’ af for-delingen. Dette resultat skal altså ganges med 2. http://www.osat.umich.edu/sixsigma/Reference/norm-tables.PDF

Testen i Excel Nedenfor vises udskrift fra Excelprogram (inkl. eksempeltabel) til beregning af z-test for andele. Der indtastes blot tal for stikprøvestørrelse, observeret andel og nulhypotesens andel. Derefter beregnes testen. Normalt opererer man med et signifikansniveau på enten 0,01 eller 0,05. http://home.clara.net/sisa/binohlp.htm Hel test på internettet:

Inferens fra stikprøve til population