490 likes | 1.23k Views
Kvantitativa forskningsmetoder I Föreläsning 2. Tom Wikman tom.wikman@abo.fi Tfn: 06-3247 250 Rum F 624, vån 6. Kort repetition. Variabel: egenskap som undersöks Nominalskala: frekvenser, antal case per grupp, kan endast räknas #
E N D
Kvantitativa forskningsmetoder IFöreläsning 2 Tom Wikman tom.wikman@abo.fi Tfn: 06-3247 250 Rum F 624, vån 6
Kort repetition • Variabel: egenskap som undersöks • Nominalskala: frekvenser, antal case per grupp, kan endast räknas # • Ordinalskala: samband baserade på rangordning, kan rangordnas <> • Intervall: samband baserade på mätningstalen, kan addreras, ingen nollpunkt, jämna skalsteg + - • Kvotskala: samband baserade på mätningstalen, kan beräknas matematiskt * / + -
Sigma=summa Medelvärde (mean) • aritmetisk medelpunkt, centralmått som ger centraltendensen dvs fördelningens balanseringspunkt. • summan av alla värden dividerat med antalet observationer Formel • observationerna heter x1, x2, x3, ..xn • summan av alla x, från i till n, börjande med x1 (i = 1) • Medelvärdet beräknas enligt: • summan av alla värden dividerat med antalet observationer
6 8 9 7 7,28 Exempel: medelvärde • Medeltalet för skolprestation (enligt modersmålvitsord) hos pojkar (n = 18) i en 5:e klass 9 + 8 + 8 + 8 + 8 + 8 + 8 + 7 + 7 + 7 + 7 + 7 + 7 + 7 + 7 + 6 + 6 + 6 = 18 131 = 7.28 18
Md = 7 Md = 7,5 Md Median • det mittersta värdet då alla värden har ordnats i storleksordning. 9 8 8 8 8 8 8 7 7 7 7 7 7 7 7 6 6 n=17 det mittersta värdet 9 9 8 8 8 8 8 8 8 7 7 7 7 7 7 6 6 6 n=18 Om antalet är udda=det mittersta värdet Om antalet är jämnt=medelvärdet av de två mittersta värdena
T=7 T Typvärde (mode) • det vanligaste värdet Värden 9 1 8 6 7 8 6 3
Utskrift från SPSS Analyze > Descriptive Statistics > Frequencies antal valida observationer antal observationer som saknas medeltal median typvärde summa Värden som variablen kan ha Frekvens=antal Procentuell andel Kumulativprocent
Normalfördelning Normalfördelningskurvan, ”Gausskurvan” 68.3 % av fördelningen ligger mellan -1 och +1 standardavvikelser 95.4 % av fördelningen ligger mellan -2 och +2 standardavvikelser 99.7 % av fördelningen ligger mellan -3 och +3 standardavvikelser Undersökningsvariabler är ofta normalfördelade vilket gör att principerna med normalfördelning kan användas då man utför statistiska test.
Medelvärde 34 34 68.3 % 0 3 6 9 12 15 18 21 24 95,4 % 99,7 % EXEMPEL Vi har gjort ett matematiktest bland en stor grupp elever, det högsta möjliga poängtalet är 24. Vi räknar ut medeltalet och finner att det är 12 poäng och att standardavvikelsen är 3.
Negativ skevhet (skewness) (svansen mot det negativa hållet) Positiv skevhet (svansen mot det positiva hållet) Låg toppighet Hög toppighet (kurtosis) Alla variabler är inte normalfördelade. Fördelningskurvorna kan ha olika utseende:
Sannolikhet • Hur vet man att det resultat man får inte beror på slumpen? • Klassisk sannolikhetsdefinition = antal gynsamma utfall antal möjliga utfall • Ex. Sannolikheten för att en slumpmässigt vald veckodag är en tisdag? = 1/7 • Sampelstorleken (slumpmässigt urval) påverkar sannolikheten för att resultatet motsvarar verkligheten. Ju större sampel desto större sannolikhet dvs mindre utrymmer för slumpen. => använd signifikanstest för att ta reda på slumpens andel!
Hypotes • Om vi vill kunna dra slutsatser t.ex. om två grupper skiljer sig från varandra utifrån data insamlade mha representativa stickprov kan vi göra en analys kallad hypotesprövning eller signifikanstest för att ta reda på om det finns en sann skillnad mellan grupperna. Det finns fler olika metoder (test) som man kan använda beroende av variabeltyp. Exempel • Finns det en skillnad mellan finländska män och kvinnors inställning till aga som uppfostringsmetod? Väljer slumpmässigt ut 25 män och 25 kvinnor. Är skillnaden som finns mellan män och kvinnor statistiskt signifikant - är den sann och kan generaliseras att gälla hela populationen eller kan den ha uppkommit pga slumpen?
A = B A = B X Y X Y Exempel på noll-hypoteser och mot-hypoteser H0 Det finns ingen skillnad mellan grupperna A och B (skillnaden beror på slumpen) H1 Det finns en skillnad mellan grupperna A och B (skillnaden är signifikant och beror inte på slumpen) H0 Det finns inget samband mellan variablerna x och y H1 Det finns ett samband mellan variablerna x och y
Felrisk Ju mindre skillnad det är mellan grupperna, desto större är risken att det är slumpen som har gjort att det finns en skillnad. Man räknar ut hur stor felrisken är, alltså hur stor inverkan kan slumpen ha på resultatet? Felrisk (prob-värde), ”säkerhetsnivåer”, hur säker kan jag vara på att det finns systematiska skillnader i mitt resultat? p <.05 * (med 95 % sannolikhet systematisk skillnad) p <.01 ** (med 99 % sannolikhet systematisk skillnad) p <.001*** (med 99.9 % sannolikhet systematisk skillnad)
Oskyldig Skyldig ”På fri fot” Släpps ”Oskyldigt dömd” Döms Typer av fel vid statistisk beräkning. H0 sant H1 sant H0 väljsokb-fel typ II -fel H1 väljsa-felok typ I - fel • Typ I- fel (a -fel) handlar om att hävda ett fenomen som inte finns existerar, vanligtvis genom att välja för låg signifikansnivå. Vid 5 % signifikansnivå kan sann H0 hypotes förkastas även om den är sann. • Typ II - fel (b-fel) handlar om att inte hitta ett fenomen som existerar. Orsaker är vanligen okända: (1) för låg signifikansnivå, (2) för litet sampel, eller (3) oreliabla variabler
En-grupps c2 test (chi-två) • Med testet avgörs huruvida en företeelse förekommer mer eller mindre ofta än förväntat. De förväntade värdena kan beräknas antingen matematiskt (som medelfrekvens i ett sampel), eller enligt en tidigare studie. Kallas också goodness of fit. Man testar alltså om en observerad fördelning (ex provpoäng) avviker mer än slumpmässigt från en förväntad teoretisk fördelning (ex jämn fördelning). Variabler på NOMINAL-nivå Exempel: • Eleverna i en klass (n=30) producerade teckningar kring temat sommar. Därefter kategoriserades teckningarna enligt den fenomenografiska metoden i tre kategorier A, B och C, enligt följande fördelning: Kategori n A 5 B 17 C 8 Tot 30
Formel förc2 Oi = observerade frekvenser i = 1,......, k Ei = förväntade frekvenser; i = 1,......,k • De matematiskt förväntade frekvenserna blir (ifall man antar att teckningarna är jämnt fördelade i gruppen = H0), att en tredjedel av teckningarna borde ha kategoriserats i vardera kategorin. Alltså: Kategori n A 10 B 10 C 10 Tot 30
Oi = observerade frekvenser Ei = förväntade frekvenser Gr n (O) förv. (E) (O - E) (O - E)2 (O - E)2/E A 5 10 -5 25 2,5 B 17 10 7 49 4,9 C 8 10 -2 4 0,4 Tot 30 7,8 c2=(5 – 10)2+(17 – 10)2+(8 – 10)2 = 25+49+4 = 2.5+4.9+0.4 = 7.8 10101010 10 10
Test av signifikansnivå för c2 värdet 7,8: Frihetsgrader (df) (r - 1) (antal rader minus 1), 3-1 = 2 c2 0.95 [2]= 5.991 *7.80 > 5.99 c2 0.99 [2]= 9.210 ** 7.80 < 9.20 c2 0.999 [2]= 13.816 *** 7.80 < 13.82 • Slutsats: Med 95% sannolikhet (5% felrisk) kan vi säga att eleverna tecknat kategori B-teckningar mer än förväntat och kategori A och C mindre än förväntat. 95 % * 99 % ** 99,9 % *** 7,8?
Observerade värden Förväntade värden c2 Frihetsgrader Signifikansnivå, 2 % felrisk c2 i SPSS Analyze > Nonparametric Tests > Chi Square
Förutsättningar För att få använda c2 måste följande uppfyllas: • Slumpmässigt urval • Observerade och förväntade värden anges i absolut frekvens. • Inga förväntade frekvenser får vara under 5.
Fler-grupps-c2-test Används som mått på korrelationen mellan kvalitativa variabler • Exempel. I en undersökning ville man veta vem som ber aftonbön oftare, flickor eller pojkar. I en enkät besvarade 68 elever ifall de brukar be aftonbön eller ej (ja / nej) (data från Slangar & Stenbäck, 1996). Så här fördelade sig svarsresponserna. Flickor Pojkar Ja 12 9 Nej 13 34 • Denna design med två kolumner och två rader kallas för kontingenstabell-test eller flergrupps- c2- test. Formeln är den samma (c2), däremot beräknas de förväntade värdena på annorlunda vis.
Oi = observerade frekvenser Ei = förväntade frekvenser Flickor Pojkar Totalt Ja 12 9 21 Nej 13 34 47 Totalt 25 43 68 Flickor Pojkar Totalt Förväntade värden Ja ab a + b a=(a+b) * (a+c) / n Nej c d c + d b=(a+b) * (b+d) / n Total a + c b + d n (a+b+c+d) c=(c+d) * (a+c) / n d=(c+d) * (b+d) / n FlickorPojkarTotalt Ja 12/7.72 9/13.28 21 Nej 13/17.28 34/29.72 47 Totalt 25 43 68 c2 = (12– 7.72) 2 + (9 – 13.28) 2 + (13 – 17.28) 2+(34 – 29.72)2 = 7.72 13.28 17.28 29.72 18.31 + 18.31+18.31+18.31 = 2.37 + 1.38 + 1.06 + 0.62 = 5.43 7.72 13.28 17.28 29.72
Test av signifikansnivå: Frihetsgrader (k-1)(r - 1) = (antal kolumner minus 1) (antal rader minus 1), (2-1)(2-1) = 1 c2 = 5,43 c2 0.95 [1]= 3.841 5.43 > 3.84 c2 0.99 [1]= 6.635 5.43 < 6.63 c2 0.999 [1]= 10.828 5.43 < 10.82 Slutsats: fler pojkar än förväntat uppgav att de inte bad aftonbön, med en felrisk på 5%.
En-grupps t-test • Med ett en-grupps t-test kan du undersöka ifall medelvärdet i ett sub-sampel skiljer sig från ett känt medelvärdet i en större population. INTERVALL/KVOT-nivå. I exemplet nedan testas en grupp 5-klassisters (N=25) läsförståelse emot den totala gruppen 5e och 6e klassister i datat (N=79; känt M=33.09) H0 Gruppmedelvärdet (33,24) avviker inte från 33,09 H1 Gruppmedelvärdet (33,24) avviker från 33,09
Totala M=33.09 33,24 – 33,09 4,88 / √ 25 x - mo ŝ / √ n t = = 0.154 (H0 godtas) df = n-1 = 25-1=24 Kolla i t-fördelningstabellen!
Oberoende t-test • Man jämför två gruppers medelvärden som har testats med samma test vid samma tidpunkt. • Man antar att data är normalfördelat • x-variabel: nom, ord, y-variabel: intervall, kvot • Exempel: Hur skiljer sig skolprestationerna i klass A från prestationerna i klass B? Klass A Klass B 7 76 87 98 107 98 8 Klass A Klass B x = 7.167 x = 8.50 ŝ = 0.753 ŝ = 1.049 Hypoteser: H0: ingen skillnad mellan klass A:s och klass B:s medelvärden H1: skillnad mellan klass A:s och klass B:s medelvärden
Klass A Klass B x = 7.167 x = 8.50 ŝ = 0.753 ŝ = 1.049 n=6 n=6 Frihetsgrad: df = (n1 + n2 -2) df=6 + 6 – 2 = 10 Kolla i t-tabellen! 1 sidigt 2 sidigt t 0.95 [10] = 1.812 t 0.95 [10] = 2.228 t 0.99 [10] = 2.764 t 0.99 [10] = 3.169 t 0.999 [10] = 4.144 t 0.999 [10] = 4.587
│ t │ ≥ t 1 - a │ t │ ≥ t 1 - a/2 Obs! ensidigt förkastningsområde tvåsidigt förkastningsområde 1 - aa 1 - a/2 a/2 0.95 .05 0.90 .10 0.975 .025 0.95 .05 0.99 .01 0.98 .02 0.995 .005 0.99 .01 a = ”felrisken” * * ** ** *** 1 S, 10% 2 S, 7,5 % 1 S, 5 % 2 S, 2,5 % 1 S, 1 % 2 S, 0,5 % 1 S, 0.1%
Oberoende t-test i SPSS Analyze > Compare Means > Independent Samples T-Test Signifikansnivå P<.05 Test ifall varianserna i grupperna är lika t-värde frihetsgrad Medelvärdesskillnad A-B
Resultatet i tabellform: Tabell 1: Skillnader mellan prestationer i test “G” för klass A och B (Medelvärden och standardavvikeler). Klass A Klass B T-test (tvåsidigt)p-värde G 7.17 ( .75) 8.50 (1.05) - 2.53 p<.05 Resultatet i text... ...det visade sig att klass B presterade högre än klass A i G-provet (t [10]= - 2.53; p<.05).............
t = d Ŝd √ n Beroende t-test Analyze> Compare Means> Paired-Samples T Test • Skiljer sig medelvärdena? Beroende t-test (paired t-test): samma grupp mäts med samma test, vid två tidpunkter, eller: samma grupp testas på två variabler. INT/KV-nivå. • T.ex. har elevers skrivförmåga (mätt enligt standardiserat test 0-9 poäng) ökat från hösten-94 till våren-95? Formel för beroende t-test (Oberoende t-test (independent samples t-test): olika grupper testas med samma test vid samma tidpunkt)
Elevernas skrivförmåga har ökat mellan 1994 och 1995 (medelvärdet för testet). Är denna ökning signifikant eller kan den bero på slumpen? Skillnaden är signifikant P<.01 Slutsats: Elevernas skrivförmåga har blivit bättre. Medelvärdesskillnaden är 0,35 poäng. Skillnaden är signifikant (P<.01).
Oberoende t-test • Man jämför två gruppers medelvärden som har testats med samma test vid samma tidpunkt. • Man antar att data är normalfördelat • x-variabel: nom, ord, y-variabel: intervall, kvot • Exempel: Hur skiljer sig skolprestationerna i klass A från prestationerna i klass B? Klass A Klass B 7 76 87 98 107 98 8 Klass A Klass B x = 7.167 x = 8.50 ŝ = 0.753 ŝ = 1.049 Hypoteser: H0: ingen skillnad mellan klass A:s och klass B:s medelvärden H1: skillnad mellan klass A:s och klass B:s medelvärden
Klass A Klass B x = 7.167 x = 8.50 ŝ = 0.753 ŝ = 1.049 n=6 n=6 Frihetsgrad: df = (n1 + n2 -2) df=6 + 6 – 2 = 10 Kolla i t-tabellen! 1 sidigt 2 sidigt t 0.95 [10] = 1.812 t 0.95 [10] = 2.228 t 0.99 [10] = 2.764 t 0.99 [10] = 3.169 t 0.999 [10] = 4.144 t 0.999 [10] = 4.587
│ t │ ≥ t 1 - a │ t │ ≥ t 1 - a/2 Obs! ensidigt förkastningsområde tvåsidigt förkastningsområde 1 - aa 1 - a/2 a/2 0.95 .05 0.90 .10 0.975 .025 0.95 .05 0.99 .01 0.98 .02 0.995 .005 0.99 .01 a = ”felrisken” * * ** ** *** 1 S, 10% 2 S, 7,5 % 1 S, 5 % 2 S, 2,5 % 1 S, 1 % 2 S, 0,5 % 1 S, 0.1%
En-grupps t-test Oberoende t-test Beroende t-test Medelvärdesskillnader: t-test
Korrelation (samband) • Korrelation = samband eller samvariation mellan två variabler (x - y) • Finns det ett samband mellan variablerna? • Har variablerna en inverkan på varandra? • T.ex. finns det ett samband mellan IQ och prestationen i ett prov? Ju högre IQ desto högre provpoäng? • T.ex. Samband mellan längd och vikt. • Detta undersöks med korrelations- och regressionsmetoder. • Pearson’s Produktmomentkorrelation, rxy, för variabler på minst intervallskalenivå • Spearmans korrelation, rs för ordinalskalevariabler • Styrkan på sambandet anges med en standardiserad korrelationskoefficient.
* * * * * * * * * * * * * * * * * * * * y x
Positivt (+ 1.00) Ex. Positivt samband mellan provpoäng och kursvitsord Ju högre X desto högre Y Negativt (- 1.00) Ex. Negativt samband mellan frånvaro och kursvitsord Ju högre X desto lägre Y Non-linjärt (±0.00) Ex.?? Grad av njutning i samband med alkoholförtäring Ju högre X desto högre Y till en viss nivå sedan lägre Neutralt (noll) (± 0.00) Ex. Neutralt dvs inget samband mellan hårfärg och kursvitsord X har inget samband med Y ** * ** * *** ** * * ** ** ** ** *** * ** ** *** *** ** ** *** ** ** ** ** ** *** ** ** *** ** *** ** ** ** ** ** ** Olika typer av samband
Sambandsmått NOM Cramérs V Phi-koefficient ORD Spearmans rangkorrelation (rs) INT / KV Pearson produktmomentkorrelation (rxy)
Exempel: Korrelationer (Pearson produktmoment korrelation) mellan provpoäng, modersmålsvitsord och läsförståelse, för flickor (övre) och pojkar (nedre). Provpoäng Mo-vitsord Läsförståelse Provpoäng .19 .36 Mo-vitsord .11 .68* Läsförståelse .01 .29 - ofta ser man korrelationstabeller för två eller fler grupper - ofta är korrelationerna signifikanstestade (SPSS eller tabell) För att mäta sambandet mellan variabler har man en standardiserad korrelationskoefficient som går från -1 till +1. Egenskaper: stark – svag, positiv - negativ 0 - .20 = inget samband .21-.40 = svagt samband .41-.60 = starkt samband .61-1.00 = mycket starkt samband
Korrelationskoefficienten Signifikansnivå Antal • SPSS utskrift för sambanden mellan modersmålsvitsord, provpoäng och läsförståelse, för samma 5:e klass, för pojkar och flickor separat
Exempel 1. Nurmi och Pulliainen (1991) undersökte vilka familje- och personliga faktorer som hade ett samband med unga människors (11- och 15-åringars) optimism. Familjefaktorerna (familjediskussion och föräldrakontroll) mättes med summavariabler och de personliga faktorerna med Rosenbergs självskattningsskala (1965), och intelligensen testades med ett visuellt test (IQ). Följande resultat erhölls. Hur kunde resultatet tolkas? Vilken är skillnaden mellan 11 och 15-åringar? Optimism 11 15 Familjediskussion .05 .41 *** Föräldrakontroll -.45 *** .09 IQ .05 .30 * Självskattning .04 .21
Ett statistiskt samband mellan två variabler kan inte direkt tolkas som ett orsakssamband (mäter ej kausala samband). • Y behöver inte bero på X bara för att de har en hög korrelation. • Nonsenskorrelation • Ett sambands styrka måste bedömas från fall till fall, vad är starkt? Vad är svagt? Tabellen riktgivande: 0 - .20 = inget samband .21-.40 = svagt samband .41-.60 = starkt samband .61-1.00 = mycket starkt samband
Ett läromedel i statistik för en nybörjare • Förklara noga följande teman: - Statistiska grundbegrepp, definitioner. - Hur uppgör man tabeller och diagram. När använder man olika diagram (stolp, stapel, cirkel …) - Chi-kvadrat testet. På vilken nivå skall data vara för att duskall kunna använda det? - Hur och när kan man använda t-test? - Vad innebär korrelationsanalys?