380 likes | 607 Views
Stichprobentheorie. Gliederung Stichprobentheorie z -Werte Prozentränge Stichprobenkennwerteverteilungen Standardfehler Konfidenzintervalle Stichprobenauswahlverfahren. Stichprobentheorie.
E N D
Stichprobentheorie 05_stichprobentheorie 1 Gliederung Stichprobentheorie z-Werte Prozentränge Stichprobenkennwerteverteilungen Standardfehler Konfidenzintervalle Stichprobenauswahlverfahren
Stichprobentheorie Für eine statistische Erhebung werden in aller Regel nicht alle Mitglieder einer Grundgesamtheit bzw. Population untersucht (Vollerhebung). Statt dessen werden eine bestimmte Anzahl N (eine Stichprobe) der Mitglieder der Population für eine Untersuchung ausgewählt (Teilerhebung). Auf Basis der Stichprobe sollen Aussagen über die Grundgesamtheit getroffen werden. Da nicht alle Informationen vorliegen, ist ein solcher Schluss naturgemäß mit Unsicherheit belastet. Aufgabe der Stichprobentheorie (auch: Inferenzstatistik) ist es, den Grad der Unsicherheit durch Angabe von Wahrscheinlich-keiten zu quantifizieren. 05_stichprobentheorie 2
Stichprobentheorie Aus der Stichprobe kann die Verteilung des Merkmals in der Population geschätzt werden. Häufig wird eine Normalverteilung des Merkmals in der Population angenommen. Die Normalverteilung wird genauer gekennzeichnet durch den Mittelwert und die Standardabweichung, die aus der Stichprobe bekannt sind. 05_stichprobentheorie 3
Stichprobentheorie μ=40; σ=5 μ=50; σ=10 μ=20; σ=15 μ=60; σ=20 Alle vier Verteilungen sind normalverteilt! Es gibt unendlich viele Normalverteilungen 05_stichprobentheorie 4
Interpretation eines Messwertes • Wenn ein Merkmal normalverteilt ist, reicht es aus, den Mittelwert und die Standardabweichung zu kennen, um die Verteilung in der Population beschreiben zu können. • Information über die Populationsverteilung braucht man, um einen konkreten Wert für eine Merkmalsausprägung sinnvoll interpretieren zu können. • Beispiele • Was bedeutet ein Wert von 28 im Optimismusfragebogen (LOT)? • Was bedeutet ein Wert von 108 in einem Intelligenztest? • Solche Fragen kann man beantworten, wenn man den Mittelwert und Standardabweichung berücksichtigt. 05_stichprobentheorie 5
Interpretation eines Messwertes xi = 28 Beispiel Optimismus (LOT) xi liegt über dem arithm.Mittel Genauer: xi liegt mehr alseine Standardabweichungüber dem arithm. Mittel Genauer: Wie viel Prozentder Bevölkerung gebenOptimismuswerte unter /über 28 an? Um diese Frage zu beantworten, hilft die z-Standardisierung 05_stichprobentheorie 6
z-Standardisierung • Mit der z-Standardisierung wird eine Normalverteilung in eine Standardnormalverteilung umgewandelt. • Die Standardnormalverteilung ist die Normalverteilung, für die gilt: • μ = 0 • σ = 1 • Die z-Standardisierung erfolgt in zwei Schritten: • Zunächst wird von jedem Messwert der Mittelwert subtrahiert. • Dann wird das Ergebnis durch die Standardabweichung geteilt. 05_stichprobentheorie 7
z-Standardisierung xi = 28 Fläche = % der Verteilung 05_stichprobentheorie 8 zi = 1.36
z-Standardisierung • z Werte können mit Hilfe einer z-Tabelle einfach interpretiert werden. • In Tabellen zur Standardnormalverteilung ist immer angegeben, wie groß die Fläche unter der Kurve links von einem z-Wert ist. • Die Fläche gibt den Anteil der Verteilung an, deren Werte kleiner oder gleich des „kritischen“ z-Werts ist. • Beispiel: • xi = 28 • zi = 1.36 • Fläche(zi) = 0.91 • Anteil der z-Werte ≤ 1.36 0.91 • 91% der Population haben z-Werte kleiner oder gleich 1.36 • 91% der Population haben Optimismuswerte von 28 oder darunter • Nur 9% der Population sind optimistischer als Person i. 05_stichprobentheorie 9
z-Standardisierung Die z-Tabelle (Standardnormalverteilung) 05_stichprobentheorie 10
z-Standardisierung Interpretation der Ausprägung eines normalverteilten Merkmals • Erhebung einer Stichprobe • Berechnung von Mittelwert und Standardabweichung • Erhebung des Merkmals bei der Person i • Berechnung des z-Werts • Nachschlagen der Größe der Fläche unterhalb der z-Verteilung, die links von zi liegt • Die Fläche f(zi) gibt an, wie viel Prozent der Population Werte kleiner oder gleich zi bzw. xi haben. • 1 - f(zi) gibt an, wie viel Prozent der Population Werte größerzi bzw. xi haben. 05_stichprobentheorie 11
Prozentränge • Ein Prozentrang (PR) gibt an, wie viel Prozent der Population Werte kleiner oder gleich einem kritischen Wert haben. • Damit entspricht der Prozentrang der Wahrscheinlichkeit des z-Werts • Beispiel: Welchem Prozentrang entspricht ein IQ-Wert von(a) 130; (b) 92.5; (c) 85; (d) 100; (e) 115? • Hinweis: μ=100; σ=15 05_stichprobentheorie 12
Wahrscheinlichkeiten Die z-Tabelle ermöglicht es auch, Wahrscheinlichkeitsaussagen für bestimmte Intervalle zu machen. Wie groß ist die Wahrscheinlichkeit für einen IQ-Wert(a) von 85 bis 115; (b) von 70 bis 130; (c) von 0 bis 70;(d) von über 100 05_stichprobentheorie 13
Wahrscheinlichkeiten Generell gilt für normalverteilte Merkmale: 68.26% der Werte liegen im Bereich: bzw. 95.44% der Werte liegen im Bereich: bzw. 05_stichprobentheorie 14
Stichprobenkennwerteverteilungen Wir haben verschiedene Stichprobenkennwerte kennengelernt: z.B. Mittelwert, Median, Varianz Meist interessieren nicht die Werte für die konkrete Stichprobe, sondern für die zugrundeliegenden Population. Die Kennwerte aus einer Stichprobe werden daher als Schätzer für die entsprechenden Populationskennwerte verwendet Je größer eine (repräsentative) Stichprobe, desto genauer ist die Schätzung. 05_stichprobentheorie 15
Stichprobenkennwerteverteilungen Wenn man aus der gleichen Population immer wieder Stichproben zieht, ergibt sich für jede Stichprobe ein neuer Mittelwert. Wenn man sehr viele Stichproben erhebt, erhält man auch viele Mittelwerte. Nun kann man die Verteilung der resultierenden Mittelwerte betrachten. Diese Verteilung heißt Stichprobenkennwerteverteilung des Mittelwerts 05_stichprobentheorie 16
Standardfehler • Diese „Verteilung der der Mittelwerte“ ist selbst wieder normalverteilt (wenn das Merkmal normalverteilt ist). • Der Mittelwert der Stichprobenkennwerteverteilung entspricht dem Mittelwert in der Population. • Die Streuung der Stichprobenkennwerteverteilung wird als Standardfehler (des Mittelwerts) bezeichnet. • Der Standardfehler gibt an, wie nah ein empirischer Stichprobenmittelwert am wahren Populationsmittelwert liegt. • Dieser Standardfehler des Mittelwertes kann auch aus einer einzigen Stichprobe geschätzt werden: 05_stichprobentheorie 17
Standardfehler Beispiel: Unter den Mitarbeiter einer großen Firma soll die Leistungsmotivation bestimmt werden. Es werden 10 Mitarbeiter zufällig ausgewählt und getestet. • Es ergibt sich Mittelwert von 60 bei einer geschätzten Populationsvarianz von 90. • Wie groß ist der Standardfehlerdieses Mittelwerts? • Wie groß wäre der Standardfehlerbei σ²=90 und N=10? • Wie groß wäre der Standardfehler bei σ²=90 und N=90? 05_stichprobentheorie 18
Konfidenzintervalle Der Standardfehler ist die Standardabweichung der Stichprobenkennwerteverteilung. Da die Stichprobenkennwerteverteilung normalverteilt ist, kann die Wahrscheinlichkeit dafür berechnet werden, dass der Mittelwert in einem bestimmten Intervall liegt. Mit p=.68 ist der Populationsmittelwert höchstens einen Standardfehler vom Stichprobenmittelwert entfernt Beispiel: Wenn , dann gilt mit p=.68 für den Populationsmittelwert : 05_stichprobentheorie 19
Konfidenzintervalle Ein Konfidenzintervall ist ein symmetrischer Bereich um den Stichprobenmittelwert, in welchem der Populationsmittelwert mit einer bestimmten Wahrscheinlichkeit liegt. 05_stichprobentheorie 20
Standardfehler für weitere Kennwerte 05_stichprobentheorie 21
Standardfehler der relativen Häufigkeit Wie groß ist der Standardfehler der relativen Häufigkeit von Frauen unter Psychologiestudierenden (p=.76)? Wie groß das 95% Konfidenzintervall? 05_stichprobentheorie 22
Standardfehler des Medians Wie groß ist der Standardfehler des Medians der Statistik-vorkenntnisse? Wie groß das 95% Konfidenzintervall? 05_stichprobentheorie 23
Standardfehler der Standardabweichung Wie groß ist der Standardfehler der Standardabweichung der Statistikvorkenntnisse? Wie groß das 95% Konfidenzintervall? 05_stichprobentheorie 24
Auswahlverfahren Wichtigste Voraussetzung für inferenzstatistische Verfahren ist die Repräsentatitivität der Stichprobe. Daher müssen Stichproben sorgfältig erhoben werden. Es gibt unterschiedliche Verfahren, wie Personen für eine Stichprobe ausgewählt werden. Grundsätzlich unterscheidet man zufallsgesteuerte und nicht-zufallsgesteuerte Auswahlverfahren. In aller Regel sind zufallsgesteuerte Verfahren vorzuziehen, da sie repräsentative Stichprobenzusammensetzungen gewährleisten. 05_stichprobentheorie 25
Auswahlverfahren • Zufallsgesteuerte Auswahlverfahren: • Uneingeschränkte Zufallsauswahl • Geschichtete Zufallsauswahl • Mehrstufige Zufallsauswahl • Klumpenauswahl. • Nicht-Zufallsgesteuerte Auswahlverfahren: • Quotenauswahl • Ad Hoc Auswahl • Theoriegeleitete Auswahl 05_stichprobentheorie 26
Uneingeschränkte Zufallsauswahl Bei der Uneingeschränkte Zufallsauswahl hat jedes Mitglied einer Population die gleiche Chance, in die Stichprobe aufgenommen zu werden. Voraussetzung: Man braucht hierfür ein Register, das alle Personen der Population umfasst (Einwohnermelderegister). Meist wird ein Computerverfahren verwendet, dass eine bestimmte Anzahl von Probanden aus dem Register auswählt. 05_stichprobentheorie 27
Geschichtete Zufallsauswahl • Bei der Geschichteten Zufallsauswahlwird eine Zufallsauswahl innerhalb bestimmter Teilpopulationen gebildet. • Beispiel: • Um Eigenschaften der Freiburger Psychologiestudierenden zu erfassen, erfolgt eine Zufallsstichprobe innerhalb jedes Semesters. • Da in die höheren Semestern kleiner sind, würden dort auch kleinere Teilpopulationen erhoben (z.B. N = Nsem/ 10). • Vorteil: • Geringere Varianz innerhalb der Teilpopulationen. • Dies wirkt sich günstig auf statistische Tests aus. 05_stichprobentheorie 28
Mehrstufige Zufallsauswahl • Bei der Mehrstufigen Zufallsauswahl wird in mehreren hierarchischen Schritten wird jeweils eine Teilpopulation zufällig ausgewählt. • Beispiel: Untersuchung zum das Coping eines Herzinfarktes • Zufällige Auswahl einer Stadt • Zufällige Auswahl einer Klinik (in dieser Stadt) • Zufällige Auswahl einer Patientenstichprobe (in dieser Klinik). • Nachteil: Die Repräsentativität der Stichprobe (und damit die Generalisierbarkeit der Ergebnisse) ist problematisch. • Empfehlung: Verfahren für mehreren Teilstichproben wiederholen. 05_stichprobentheorie 29
Klumpenauswahl • Die Klumpenauswahl ein Spezialfall der mehrstufigen Zufallsauswahl. • Als „Klumpen“ wird eine Teilpopulation bezeichnet, die voll-ständig erhoben wird. • Beispiel: • Für eine Untersuchung über die Berufsziele von Psychologiestudierenden wird zufällig das erste Semester der Uni Freiburg gewählt. • Dann werden alle 98 Studierenden befragt. • Nachteil: Die Repräsentativität der Stichprobe (und damit die Generalisierbarkeit der Ergebnisse) ist problematisch. • Empfehlung: Mehrere „Klumpen“ verwenden. 05_stichprobentheorie 30
Nicht-zufallsgesteuerte Auswahlverfahren • Bei Nicht-Zufallsgesteuerten Auswahlverfahren ist die Repräsentativität immer fraglich. • Daher kann es zu Fehlern z.B. bei der Schätzung des Standardfehlers kommen. • Beispiel: • Wenn für eine Umfrage eine Gruppe von Freunden befragt wird (z.B. weil der Interviewer diese gleichzeitig antrifft), dann haben diese in aller Regel ähnliche Einstellungen, Ansichten und Eigenschaften • Daher werden sie auch die Fragen in ähnlicher Weise beantworten • Es ergibt sich eine geringer Varianz • Dadurch wird der Standardfehler unterschätzt 05_stichprobentheorie 31
Quotenauswahl • Bei der Quotenauswahl werden Personen so ausgewählt, dass bestimmte Quoten erfüllt sind (Geschlecht, Alter, Sozialer Status, etc.). • Dies ist dann problematisch, wenn • die Quoten nicht den Anteilen an der Population entsprechen, oder • innerhalb der Quoten keine Zufallsauswahl erfolgt 05_stichprobentheorie 32
Ad hoc Auswahl (Gelegenheitsstichprobe) • Bei der ad hoc Auswahl werden die Personen ausgewählt, die zum Untersuchungszeitpunkt einfach zu erreichen sind. • Beispiel: • Ein Dozent will ein kurzes Experiment machen • Er beauftragt die Hilfskräfte der Abteilung, daran teilzunehmen, da diese direkt im Nebenraum sitzen. 05_stichprobentheorie 33
Theoriegeleitete Auswahl • Bei der TheoriegeleitetenAuswahl erfolgt die Auswahl der Stichprobe erfolgt nach theoretischen Gesichtspunkten. • Beispiel: • Zur Evaluation einer neuen Therapieform werden Patienten mit einer besonders schweren Zwangserkrankung ausgewählt. 05_stichprobentheorie 34
Zusammenfassung - Stichprobentheorie Die Standardnormalverteilung ist eine Normalverteilung mit dem Mittelwert 0 und der Standardabweichung 1. Die Wertetabelle für die Standardnormalverteilung gibt jeweils an, wie wahrscheinlich es ist, einen Wert, der kleiner oder gleich z ist, zu erhalten. Dieser Wahrscheinlichkeitswert entspricht dem Prozentrang. Aus der z-Tabelle können auch Wahrscheinlichkeiten für bestimmte Intervalle abgelesen werden. Besonders wichtig ist das Intervall von -1≤ z ≤ +1. In diesen „Standardbereich der Verteilung“ fallen 68% der Werte. 05_stichprobentheorie 35
Zusammenfassung - Stichprobentheorie Für statistische Kennwerte kann ein Standardfehler berechnet werden. Dieser entspricht der Streuung der Stichprobenkennwerteverteilung. Die Stichprobenkennwerteverteilung ist normalverteilt. Daher kann mit Hilfe des Standardfehlers ein Konfidenzintervallbestimmt werden. Meist werden 95%-Konfidenzintervalle (Mittelwert plus/minus 1.96 Std.-fehler) oder 99%-Konfidenzintervalle (Mittelwert plus/minus 2.57 Std.-fehler) angegeben. Standardfehler können u.a. für das arithmetische Mittel, den Median, relative Häufigkeiten und die Standardabweichung berechnet werden. 05_stichprobentheorie 36
Zusammenfassung - Stichprobentheorie Voraussetzungen für die Schätzung des Standardfehlers ist eine die Repräsentativität der Stichprobe (Zufallsauswahl). Bei Zufallsauswahlen unterscheidet man die uneingeschränkte Zufallsauswahl, die geschichtet Zufallsauswahl, die mehrstufige Zufallsauswahl und die Klumpenauswahl. Nichtzufallsgesteuerte Auswahlverfahren beinhalten die Quotenauswahl, die Ad Hoc Auswahl und die Theoriegeleitete Auswahl. 05_stichprobentheorie 37