620 likes | 834 Views
4. Schließende Statistik. 4.1 Schätzverfahren 4.2 Fehlerrechnung 4.3 Prinzip statistischer Tests 4.4 Statistische Tests für Intervalldaten 4.5 Statistische Tests für Ordinaldaten 4.6 Statistische Tests für Nominaldaten. 4.
E N D
4 Schließende Statistik 4.1 Schätzverfahren 4.2 Fehlerrechnung 4.3 Prinzip statistischer Tests 4.4 Statistische Tests für Intervalldaten 4.5 Statistische Tests für Ordinaldaten 4.6 Statistische Tests für Nominaldaten
4 • Anliegen der schließenden Statistik ist es, aus vorliegenden Daten (Stichproben) auf die Eigenschaften der entsprechenden Grundgesamtheit zu schließen : - deskriptive Statistik: Beschreibung der empirischen Kennwerte und Verteilungen von Stichproben (Kapitel 2) - Wahrscheinlichkeitstheorie: Definition eines theoretischen Modells mit Merkmalsraum, Ereignisfeld und Wahrscheinlichkeiten (Kapitel 3) schließende Statistik: Verbindung zwischen Empirie und Theorie Schließende Statistik STP GG schließende Statistik Zufallsvariable IQ: Mittelwert empirische Varianz relative Häufigkeiten Erwartungswert Varianz Wahrscheinlichkeit
4 • in der schließenden Statistik gibt es zwei Arten von Fragestellungen: 1.) Frage nach den Eigenschaften (Parametern) der GG gegeben eine STP (Schätzverfahren) 2.) Frage nach Zugehörigkeit einer oder mehrerer STP zu einer bzw. der gleichen GG (Prüfverfahren) • da eine STP eine Zufallsauswahl aus der GG darstellt, sind die Aussagen der schließenden Statistik immer Wahrscheinlichkeitsaussagen und mit einer bestimmten Unsicherheit behaftet • Schätz- und Prüfverfahren basieren auf sog. STP-Funktionen: Schätz- und Prüffunktionen (manchmal beides) Schließende Statistik Gehören die Temperatur- änderungen in A1 und B1 zur gleichen GG? Statistischer Jargon: Gibt es einen statistisch signifikanten Unterschied zwischen A1 und B1?
4 • Klassifikation der Prüfverfahren: - Orientierungshilfe für die Auswahl eines geeigneten Testverfahrens - Anpassungstests: gehört STP zu einer GG mit einer bestimmten vorgegebe- nen Verteilung? - Unterschiedstests: gehören zwei STP zu der gleichen oder zu unterschiedli- chen GG Schließende Statistik auf Mittelwert: Lokationstests auf Varianz: Dispersionstests auf Mittelwert und Varianz: Omnibustests • - abhängige versus unabhängige STP • - Skalenniveau der Daten • - eine, zwei oder mehrere STP • parametrische Tests: an bestimmte • Verteilung gebunden; nur Parameter • der Verteilung betrachtet (aussage- • kräftiger, aber mehr Voraussetzun- • gen zu erfüllen) • nichtparametrische Tests: keine An- • nahme über Verteilung; alle Werte • betrachtet • STP-Umfang: einfachere Näherungs- • formeln bei großen STP
4.1 • als Schätzverfahren wird jede Methode bezeichnet, die geeignet ist, um von der STP-Information auf die unbekannte GG zu schließen: - Aussagen über Kennwerte und Wahrscheinlichkeiten der GG - Vorhersagen über die Eigenschaften zukünftiger STP aus der gleichen GG • 3 Problemkreise der Schätztheorie: - Punktschätzung: Schätzung bestimmter Kennwerte der GG über Schätzformel - Intervallschätzung: Schätzung des Unsicherheitsbereiches, in dem die Parameter der GG mit einer a-priori definierten Wahrscheinlichkeit vermutet werden (Konfidenzintervalle, Mutungsbereiche) - Ereignisschätzung: erwarteter zukünftiger Wertebereich oder Wahrscheinlich- keiten von STP-Realisierungen gegeben die theoretische GG-Verteilung (Exspektanz) Schätzverfahren 99% 90% STP → GG Intervallschätzung s+=84% x=50% s-=16% STP → GG Punktschätzung 10% 1%
4.1 • Kriterien der Parameterschätzung (Punktschätzung): • - Frage nach geeigneten statistischen Kennwerten als Schätzwert eines Para- • meters der GG • - bislang z.B. arithmetisches Mittel der STP als Schätzer des Erwartungswertes • der GG angenommen (Gesetz der großen Zahlen) • - nach R.A. Fisher (1925) 4 Kriterien für einen geeigneten Schätzer: • hinsichtlich dieser 4 Kriterien sind arithmetisches Mittel und empirische Varianz der Stichprobe die besten Punktschätzer für den Erwartungswert μ und die Varianz σ2 der Grundgesamtheit: • im Hinblick auf die häufig realisierte Normalverteilung, die nur diese beiden Parameter enthält, sind und von zentraler Bedeutung in der schließenden Statistik Schätzverfahren - Erwartungstreue - Konsistenz - Effizienz - Exhaustivität - erwartungstreu - konsistent - erschöpfend - effektiver als andere statistische Kennwerte
4.1 • Intervallschätzung: - arithmetisches Mittel und empirische Varianz sind zwar geeignete Schätzer für die entsprechenden Parameter der GG - aber Punktschätzung schwankt natürlich zufällig von STP zu STP - gegeben nur eine STP mit arithmetischem Mittel , dann ist die Kennwerteverteilung bei Gültigkeit des zentralen Grenzwertsatzes bekannt: - gegeben die Normalverteilung von liegt der tatsächliche Erwartungswert der GG mit einer bestimmten Wahrscheinlichkeit S in einem bestimmten Intervall [pu,po] um : Schätzverfahren Konfidenzintervall : [pu,po] Sicherheitswahrscheinlichkeit : S = P(pu μ p0) Irrtumswahrscheinlichkeit : α = 1 – S
4.1 • Konfidenzintervall kennzeichnet den Bereich eines Merkmals, in dem sich entsprechend der Wahrscheinlichkeit S ein bestimmter Anteil der möglichen GG-Parameter befindet, die den statistischen Kennwert der STP erzeugt haben könnten (hier zunächst für Erwartungswert μ) - typischerweise werden sog. Konfidenzkoeffizienten mit S=90%, S=95% oder S=99% vorgegeben - Bestimmung der Intervallgrenzen erfolgt über Quantile der standardisierten Normalverteilung: - diese Quantile lassen sich zurücktransformieren gegeben und : - allgemein gilt für das Konfidenzintervall des Erwartungswertes: Schätzverfahren - kürzestes Konfidenzintervall - symmetrisch um x
4.1 • Beispiel zum Konfidenzintervall für den Erwartungswert: - 250 Studenten wurden nach der Entfernung zwischen Wohnung und Uni gefragt - im Mittel 3400 m bei einer Standardabweichung von 1100 m - Konfidenzintervall der GG (alle Studenten) bei Irrtumswahrscheinlichkeit von 5% bzw. 1%? - mit einer Sicherheit von 95% (99%) liegt der Erwartungswert der GG im Bereich 3264m bis 3536m (3221m bis 3579m) Schätzverfahren
4.1 • Konfidenzintervall für den Erwartungswert bei kleinen STP: - Voraussetzung der Normalverteilung der Stichprobenmittelwerte nur erfüllt für hinreichend große STP (zentraler Grenzwertsatz) - bei n < 30 ist der Quotient der z-Transformation t-verteilt mit n-1 Freiheits- graden: - Beispiel: wie oben, aber mit n = 25 befragte Studenten: • - mit einer Sicherheit von 95% liegt der Erwartungswert der GG im • Bereich 3256m bis 3544m Schätzverfahren
4.1 • Konfidenzintervall für die Varianz und Standardabweichung: - gegeben sind die empirischen Varianzen s2 von Zufalls-STP der Größe n - die Kennwerteverteilung der s2 ist dann χ2-verteilt mit n – 1 Freiheitsgraden - wegen der Asymmetrie der χ2-Verteilung sind zwei unterschiedliche Quantil- werte zu bestimmen: - aus der Tabelle der Funktionswerte der χ2-Verteilung lassen sich die beiden Quantilwerte ablesen: - Konfidenzintervall für die Varianz σ2 der GG gegeben die empirische Varianz s2 einer STP der Größe n: - analog gilt für die Standardabweichung σ der GG: Schätzverfahren
4.1 • Beispiel zum Konfidenzintervall für die Standardabweichung: - wie oben mit n = 250 befragten Studenten und α = 5%: • - mit einer Sicherheit von 95% liegt die Standardabweichung der GG im • Bereich 1010m bis 1203m Schätzverfahren
4.1 • Exspektanz: - gegeben eine bekannte oder vermutete Verteilungsfunktion FX(x) der GG lässt sich der Wertebereich bestimmen, in dem bei zukünftigen STP Werte mit einer bestimmten Wahrscheinlichkeit S auftreten - bei einem symmetrischen Wertebereich Δx um das arithmetische Mittel der STP mit den Grenzen xu, und xo gilt: - Wertebereich Δx heißt Exspektanz: Mutungsbereich, in dem zukünftige STP- Werte mit einer Wahrscheinlichkeit S=1-α erwartet werden (bei NV): - 2 komplementäre Fragestellungen: - die Berechnung kann entweder direkt mit einer bekannten theoretischen oder mit einer empirischen Verteilungsfunktion durchgeführt werden - bei empirischen Verteilungen ist zunächst zu überprüfen, welche Verteilung der STP-Werte realisiert ist, um die richtigen Quantile bei der Berechnung der Konfidenzintervalle zu verwenden Schätzverfahren Standardabweichung s der STP wird hier nicht mit normiert, da es nicht um die Streuung des STP-Mittels, sondern der STP-Werte geht - S gegeben und Δx gesucht - Δx gegeben und S gesucht
4.1 • Beispiel zur Exspektanz: - mittlere Oktobertemperaturen in Würzburg 1911-1960 (n = 50): - Einteilung in 7 Klassen mit absoluten, rela- tiven und akkumulierten Häufigkeiten: - graphische Schnellprüfung der klassifizierten Messwerte auf Normalverteilung: Schätzverfahren Wahrscheinlichkeitsnetz Gerade → NV(x,s) - Abzisse: Klassenobergrenzen - Ordinate: kumulative prozentuale Häufigkeiten
4.1 • Beispiel zur Exspektanz: - Kennwerte der STP: - Konfidenzintervalle der GG-Parameter: - obwohl das Konfidenzintervall für σ relativ groß ist, wird zunächst auch für die GG eine Normalverteilung angenommen - Frage: in welchem Wertebereich Δx ist in S=90% der Fälle eine beobachtete Oktobertemperatur zu erwarten? - Exspektanz um Stichprobenmittel wie folgt zu berechnen: - wegen des großen Konfidenzintervalls von σ kann auch von einem zu kleinen STP-Umfang ausgegangen werden, was dann die Berechnung auf Basis der t- Verteilung impliziert: Schätzverfahren
4.1 • Festlegung des Stichprobenumfangs: - STP-Umfang, Irrtumswahrscheinlichkeit und Konfidenzintervalle hängen un- mittelbar zusammen - in der Praxis wird schmales Konfidenzintervall bei hoher Sicherheit bevorzugt - gegeben eine angestrebte Genauigkeit (L = Δcrit) und eine Irrtumswahrschein- lichkeit α lässt sich der Mindestumfang der STP berechnen - STP-Umfang für Konfidenzintervall der Länge L von Erwartungswert μ mit bestimmtem Konfidenzkoeffizienten S: • - Beispiele zur Bestimmung des STP-Umfangs: Schätzverfahren
4.1 • Festlegung des Stichprobenumfangs: - mit kleiner werdender Konfidenzintervallbreite (KIB) wächst der benötigte STP-Umfang quadra- tisch an: für Halbierung des Konfidenzintervalls benötigt man den 4-fachen STP-Umfang - STP-Umfang ist auch Funktion der Irrtumswahr- scheinlichkleit α, aber weniger sensitiv - STP-Umfang hängt auch von der empirischen Varianz s2 innerhalb der STP ab: - Beispiel: - empirische Varianz a-priori meist nicht bekannt; dann u.U. kleine Voruntersuchung durchführen und σ2 = s2 iterativ festlegen Schätzverfahren je kleiner die empirische Varianz der STP desto kleiner der Standardfehler der STP und desto kleiner der benötigte STP-Umfang Klumpen-STP statt Zufalls-STP
4.2 • in den Geowissenschaften beruhen viele STP-Daten auf physikalischen Messungen: - begrenzte Messgenauigkeit aus technischen Gründen - Variationen des Messsystems - Variationen durch die menschliche Handhabung Fluktuationen der Messwerte bei ansonsten gleichen Randbedingngen: • 2 Arten von Messfehlern: - systematische Fehler: - bevorzugte Richtung der Abweichung vom Zielwert - potentiell erkennbar und eliminierbar - z.B. Strahlungseinfluss auf Thermometer - stochastische Fehler: - zufällige Streuung um Zielwert - prinzipiell nicht eliminierbar - z.B. Messgenauigkeit des Niederschlages Trennung der beiden Fehlerarten entweder kausal (Ursachen: z.B. Mess- apparatur) oder empirisch( z.B. durch systematische Abweichungen vom gesetzmäßigen Verhalten der zufälligen Fehler = Fehlerverteilungsgesetze) Fehlerrechnung systematischer Messfehler (raumzeitunabh.) systematischer Messfehler (raumzeitabh.) Messwert an einem Ort zu einem Zeitpunkt Zielwert: deterministisch, beliebig genau Messfehler stochastischer Messfehler (raumzeitabh.)
4.2 • Ursachen für das Auftreten von systematischen Fehlern: - Apparaturfehler: Messanordnung, Eichfehler, Skalenfehler, Trägheitsfehler - Handhabungsfehler: Parallaxenfehler beim Ablesen, Körpertemperatur, Erschütterungen, Bedienfehler - Auswertungsfehler: Umrechnung, Rundung, Statistik, graphische Darstellung - Interpretationsfehler: Fehlinterpretation wegen fehlender Metadaten • Fehlerverteilungsgesetze: - auch wenn keine systematischen Fehler vorliegen existieren immer zufällige Fehler - verbleibende Messwertvariationen verlaufen nach bestimmten Gesetzen: Fehlerverteilungsgesetze nach Gauß (1777-1855): bei unendlich vielen Messungen xi stellt sich bei diskreten (metrischen) Daten die Binomialvertei- lung (Normalverteilung) exakt ein - anhand der Häufigkeitsverteilung der Messwerte lässt sich beurteilen, ob nur noch zufällige Fehler verbleiben: Fehlerrechnung f f NV / b: nur εz systematischer “Bias“: εs + εz xi xi
4.2 • Fehlerschätzung: - zufällige Fehler legen die Messgenauigkeit einer Versuchsapparatur fest - Bestimmung der Messgenauigkeit mit Hilfe der Fehlerschätzung nach Gauß - gegeben eine Messreihe xi , i=1..n unter konstanten Rahmenbedingungen: einfache Fehlerschätzung - ohne stochastische Fehler sollte sich numerisch exakt der gleiche Wert für alle xi einstellen - nach Gauß ist das arithmetische Mittel der xi der sog. Bestwert der Messung, der sich im Falle εz = 0 einstellen würde - zufällige Fehler werden als Unschärfe der Messwerte definiert: Zahlenwert- intervall im Sinne eines Mutungsbereiches - theoretisch mit Sicherheitswahrscheinlichkeit S zu verbinden, in der Praxis aber meist nur Bereich zwischen ±1∙s mit S = 68,26% (bei NV) angegeben: - keine sehr konservative Schätzung für die Messgenauigkeit: besser S = 95% Fehlerrechnung absoluter Standardfehler des Bestwertes relativer Standardfehler des Bestwertes
4.2 • Beispiel zur Fehlerschätzung: - Messreihe mit 8 Versuchen unter identischen Randbedingungen: - Messgenauigkeit wird bereits durch die erste Ziffer des absoluten Standard- fehlers festgelegt - Messresultat lautet somit: - bei abgeleiteten Größen sollte die Messgenauigkeit mit einer Ziffer weniger angegeben werden als bei den Originaldaten Fehlerrechnung
4.2 • Fehlerfortpflanzung: - im Gegensatz zur einfachen Fehlerschätzung nun Messergebnis E betrachtet, das sich aus mehreren fehlerbehafteten Messgrößen a,b,c,... zusammensetzt: - Bestwert des zusammengesetzten Messergebnisses ist: - ferner sind die absoluten und relativen (nichtprozentualen) Standardfehler der Einzelmessgrößen und des zusammengesetzten Messergebnisses: - Fehlerfortpflanzungsgesetz nach Gauß: Fehlerrechnung
4.2 • Fehlerfortpflanzung: - nach den Regeln der Differentialrechnung ergeben sich für verschiedene Rechenoperationen zwischen den Einzelmessgrößen die folgenden Fehler- abschätzungen: - in der Praxis lässt sich Fehlerfortschreibung entweder analytisch oder durch sukzessives Einbringen der individuellen Fehlergrößen in die Funktionsglei- chung von E = f(a,b,c,…) bewerkstelligen Fehlerrechnung
4.2 • Beispiel zur Fehlerfortpflanzung: - gesucht ist Messgenauigkeit für das zusammengesetzte Messergebnis: - Messreihen und -fehler zu den einzelnen Messgrößen a,b,c: - sukzessives Vorgehen gemäß E = f(a,b,c): - das zusammengesetzte Messergebnis lautet E = 275±59 Fehlerrechnung
4.3 • neue Fragestellung: zuerst Eigenschaften der GG postulieren und dann prüfen, ob diese Eigenschaften durch eine STP bestätigt werden können • daran schließt sich Frage an, wie stark ein STP-Kennwert von einem GG-Parameter abweichen darf, um als Bestätigung für die Grundannahmen zur GG zu gelten • Brauchbarkeit der Theorie zu einer GG lässt sich dadurch bemessen, inwiefern sich Teilaussagen dieser Theorie (Hypothesen) in der Praxis bewähren • Alternativhypothesen (Gegenhypothesen): - beinhalten innovative Aussagen, die über den gegenwärtigen Kenntnisstand der Wissenschaft hinausgehen - Aufgabe der Wissenschaft besteht darin zu überprüfen, ob die Realität durch solche Alternativhypothesen besser erklärt werden kann Prinzip statistischer Tests Alternativhypothese: “Das Wertheim-Village schafft neue Arbeitsplätze.“
4.3 • Alternativhypothesen: - Unterschiedshypothesen: Häufigkeits- und Mittelwertvergleiche - Zusammenhanghypothesen: Korrelationsrechnung - gerichtete Hypothese: Änderung in eine bestimmte Richtung (besser/schlechter, größer/kleiner, …); negative/positive Korrelation - ungerichtete Hypothese: Änderung allgemein; Korrelation allgemein - spezifische Hypothese: Änderung um (mindestens) einen bestimmten Betrag - unspezifische Hypothese: Änderung allgemein - Hypothesenformulierung hängt von den Vorkenntnissen zum Sachverhalt ab: - Überprüfung einer Hypothese erfordert Übersetzung der wissenschaftlichen Hypothese in eine statistische Alternativhypothese H1: Prinzip statistischer Tests ungerichtete unspezifische Hypothese gerichtete spezifische Hypothese Stand der Vorkenntnisse statistische Alternativhypothese: “Im Mittel war die Arbeitslosenquote vorher (μo) höher als hinterher (μ1).“ wissenschaftliche Hypothese: “Das Wertheim-Village schafft neue Arbeitsplätze.“ Nomenklatur: H1 : μ0 > μ1 H1 : ρ > 0 Operationa- lisierung
4.3 • Nullhypothese: - konkurrierend zur Alternativhypothese: konservativer Standpunkt - beinhaltet keine inhaltliche Aussage außer der Negation von H1 - statistische Nullhypothese ist zwingend komplementär zur Alternativhypothe- se: - in der klassischen Prüfstatistik repräsentiert die Nullhypothese die Basis, bezüglich derer die Alternativhypothese akzeptiert werden darf oder nicht - nur wenn die Realität nicht mit der Nullhypothese vereinbar ist, darf Alternativ- hypothese akzeptiert werden (konservative Sicht in der Wissenschaft) Prinzip statistischer Tests Unterschiedshypothesen: Zusammenhanghypothesen:
4.3 • Entscheidung über Richtigkeit einer der beiden Hypothesen anhand der STP-Daten: - verbunden mit Unsicherheit (=Wahrscheinlichkeit) - durch zufällige STP-Auswahl könnten die beiden Hypothesen fälschlicher- weise akzeptiert bzw. verworfen werden • Fehlerarten bei statistischen Entscheidungen: - α-Fehler: Nullhypothese wird fälschlicherweise verworfen - β-Fehler: Nullhypothese wird fälschlicherweise angenommen - in der Praxis können beide Fehlerarten zu Fehlentscheidungen mit teils gravierende Konsequenzen führen (z.B. Fehlinvestitionen, unzureichende Sicherheitsmaßnahmen etc.) Prinzip statistischer Tests
4.3 • Signifikanz: - Qualität einer statistischen Entscheidung kann verstanden werden als die Wahrscheinlichkeit, einen α- oder β-Fehler zu begehen - Wahrscheinlichkeit für einen α-Fehler heißt Irrtumswahrscheinlichkeit (Signifikanz): bedingte Wahrscheinlichkeit gegeben H0 in der GG - Bestimmung der Irrtumswahrscheinlichkeit α basiert auf der Zufallsverteilung der Stichprobenmittelwerte: Prinzip statistischer Tests nach dem zentralen Grenzwertsatz sind Stichprobenmittel einer GG normalverteilt mit μ0 und σX Mittelwert einer bestimmten STP sei x (z.B. Arbeitslosenquote hinterher) schraffierte Fläche kennzeichnet Wahr- scheinlichkeit, dass der Wert x in der GG erreicht oder überschritten wird diese Fläche kennzeichnet die Irrtums- wahrscheinlichkeit α bei einer Entschei- dung zu Ungunsten der Nullhypothese
4.3 • Signifikanz: - in der Praxis ist empirische Ermittlung der Zufallsverteilung der STP-Mittelwer- te meist zu aufwendig (sehr viele Befragungen/Versuche nötig) - aber diese Verteilung lässt sich schätzen aus einer oder mehreren STP der GG, die die Nullhypothese kennzeichnet: - gegeben den Mittelwert x einer spezifischen zu überprüfenden STP von hin- reichendem Umfang lässt sich die Irrtumswahrscheinlichkeit α über eine z- Transformation ermitteln: Prinzip statistischer Tests Irrtumswahrscheinlichkeit je nach Fragestellung: Überschreitungswahrscheinlichkeit: α = 1 - P(X z) Unterschreitungswahrscheinlichkeit: α = P(X -z) μ0 z -z
4.3 • Beispiel zur Signifikanz: - neues Lehrkonzept in der Statistikvorlesung besser? - bei herkömmlichem Lehrkonzept μ0 = 40 Testaufgaben gelöst mit einer Streuung von σ = 8 (Verteilung der Werte unter H0) - bei 100 Studenten wurden unter dem neuen Lehrkonzept im Mittel 42 Test- aufgaben gelöst - Standardfehler der STP-Mittelwerte in der GG: - z-Transformation des zu überprüfenden STP-Mittelwertes: - Funktionswert aus der Tabelle der Verteilungsfunktion der Standard-NV liefert: - ein STP-Mittelwert von x = 42 tritt nur in 0,62% der STP aus der GG der Nullhypothese auf - Ablehnung der Nullhypothese erfolgt mit einer Irrtumswahrscheinlichkeit von 0,62% (sehr gering) → H1 zu akzeptieren: neues Lehrkonzept besser! Prinzip statistischer Tests
4.3 • Signifikanzniveau: - Beitrag der Statistik endet bei der Berechnung der Irrtumswahrscheinlichkeit - darüber hinaus ist nur eine subjektive Einschätzung und Entscheidungsfin- dung möglich - zur Vergleichbarkeit statistischer Entscheidungen hat sich die Konvention etabliert, eine Nullhypothese erst bei α = 5% bzw. α = 1% abzulehnen - diese Schwellenwerte der Irrtumswahrscheinlichkeit heißen Signifikanzniveau: - Auswahl eines Signifikanzniveaus muss a-priori erfolgen je nach Ausmaß der Konsequenzen aus einer fälschlicherweise abgelehnten Nullhypothese - Beispiel zum neuen Lehrkonzept führt mit der Annahme von H1 zu einem sehr signifikanten Ergebnis - häufige Missverständnisse: Signifikanzaussage ist nicht identisch mit der: Prinzip statistischer Tests signifikantes Ergebnis: H0abgelehnt bei α = 5% P(Ergebnis|H0) 5% sehr signifikantes Ergebnis: H0 abgelehnt bei α = 1% P(Ergebnis|H0) 1% • Wahrscheinlichkeit des Ergebnisses: P(Ergebnis|H0) ≠ P(Ergebnis) • Wahrscheinlichkeit der Nullhypothese: P(Ergebnis|H0) ≠ P(H0) • Wahrscheinlichkeit des Alternativhypothese: P(Ergebnis|H0) ≠ 1 - P(H0) • Wahrscheinlichkeit der H0 gegeben das Ergebnis: P(Ergebnis|H0) ≠ P(H0|Ergebnis) • stattdessen Verknüpfung über Bayes-Theorem:
4.3 • Signifikanzniveau: - die Chance auf ein signifikantes Ergebnis vergrößert sich mit dem STP- Umfang, dem Abstand x – μ0 und einer kleineren Streuung innerhalb der GG: - Annahme der Alternativhypothese einer neuen Theorie erfolgt nur indirekt durch Ablehnung der Nullhypothese - Signifikanzniveaus von 5% bzw. 1% sollen als gute wissenschaftliche Praxis verstanden werden, um neue Theorien gegenüber Spekulationen abzusichern - in der Alltagswelt begnügen wir uns bei vielen Entscheidungen bereits mit einer Irrtumswahrscheinlichkeit von 20% Prinzip statistischer Tests
4.3 • Ein- und zweiseitige Tests: - einseitiger Test: gerichtete Hypothesen H1 : μ1 > μ0 , μ1 < μ0 - zweiseitiger Test: ungerichtete Hypothesen: μ1≠μ0 Prinzip statistischer Tests einseitiger Test: Fläche von α nur auf eine Seite der Verteilung beschränkt entsprechende Quantile liegen näher am Mittelwert μ0 = 40: zweiseitiger Test: Fläche von α auf beide Seiten der Verteilung aufgeteilt entsprechende Quantile liegen weiter entfernt vom Mittelwert μ0 = 40: “kritischer Wert“
4.3 • Ein- und zweiseitige Tests: - zweiseitige Hypothesenformulierung erhöht den kritischen Wert und somit die Chance, dass die Nullhypothese bei einem festen α angenommen wird - klassischer inhaltlicher Bezug: eine Alternativhypothese mit mehr Vorkenntnis wird eher bestätigt • Statistische Signifikanz und praktische Bedeutung: - ein signifikantes Ergebnis ist abhängig vom STP-Umfang, also nicht auf beliebige STP unterschiedlicher Größe zu transferieren: - bei genügend großen STP ist jede Nullhypothese zu verwerfen: Wert der Signifikanzaussage? Prinzip statistischer Tests gleiche Differenz x – μ0 führt zu unterschiedlichen Entscheidungen über H1 in Abhängigkeit von n Frage nach praktischer Relevanz von 0,19 mehr richtigen Testaufgaben trotz statistischer Signifikanz
4.3 • Statistische Signifikanz und praktische Bedeutung: - es ist ein objektiver Standard gefordert, der eine statistische Entscheidung mit Kriterien der praktischen Bedeutsamkeit verbindet: Effektgröße - Effektgröße kennzeichnet den Mindestunterschied zwischen zwei GG, um von praktischer Relevanz zu sein: - Effektgröße wird mathematisch wie folgt definiert: - Festlegung der Effektgröße muss a-priori erfolgen und ist immer an inhaltli- chen Fragestellungen orientiert: - bei festgelegter Effektgröße und Irrtumswahrscheinlichkeit lässt sich der benö- tigte STP-Umfang ableiten (s.u.) Prinzip statistischer Tests - Mittelwertdifferenz x – μ0 - Mindestkorrelation - Prozentwertdifferenz Wie viele mehr gelöste Testaufgaben rechtfertigen den Aufwand eines neuen Lehrkonzeptes? Welche Reduktion der Arbeitslosenquote führt zu relevanten Impulsen beim Konsum?
4.4 • bislang statistischen Kennwert einer STP mit dem zugehörigen Parameter einer bekannten GG verglichen • in der Praxis sind GG-Parameter selten bekannt, so dass Kennwerte eher zwischen STP verglichen werden • je nach Skalenart der Daten unterschiedliche Tests: • im Zweifelsfall sind immer mehrere Tests durchzuführen und bei unter-schiedlichen Ergebnissen immer der Test mit den geringsten Anforderun-gen an das Skalenniveau zu bevorzugen • zusätzlich noch Unterscheidung nach Zusammenhang der verglichenen STP: Statistische Tests für Intervalldaten - Intervall-/Rationalskala - Ordinalskala - Nominalskala - unabhängige Stichproben - abhängige Stichproben
4.4 • Vergleich STP-Mittelwert und Erwartungswert der GG: - Alternativhypothese: Zufalls-STP gehört zu einer GG mit Erwartungswert μ1, die von einer Referenz-GG mit E(X) = μ0 abweicht: - Entscheidung hängt von der Differenz ab - bei hinreichend großen STP sind STP-Mittel unter der H0 normalverteilt: - Differenz kann in Standardnormalverteilung transformiert werden: - aus Tabelle der Standardnormalverteilung wird kritischer Wert für eine vorge- gebene Irrtumswahrscheinlichkeit α bei ein- oder zweiseitigem Test abgelesen und Entscheidung getroffen: Statistische Tests für Intervalldaten bei kleinen STP kann u.U. die Binomialverteilung unter H0 realisiert sein: Binomial-Test Prüfgröße: Prüfgröße jenseits des kritischen Wertes: Prüfgröße diesseits des kritischen Wertes:
4.4 • Vergleich STP-Mittelwert und Erwartungswert der GG: - graphische Veranschaulichung der möglichen Fälle: Statistische Tests für Intervalldaten H1 : μ0 < μ1 H1 : μ0 > μ1 einseitiger Test H1 : μ0 ≠ μ1 z führt zur Annahme von H0 z führt zur Annahme von H1 zweiseitiger Test
4.4 • Vergleich STP-Mittelwert und Erwartungswert der GG: - Beispiel: männliche Geographen haben einen geringeren IQ (gerichtete H1) als die GG aller Männer: - bekannte GG mit μ0 = 100 und σ = 10 - STP mit n = 36 Geographen und x = 98 - Prüfgröße: - kritischer Wert bei α = 0,05, einseitiger Test: - statistische Entscheidung: - Antwortsätzchen: Statistische Tests für Intervalldaten “Männliche Geographen sind nicht dümmer als andere Männer“
4.4 • Vergleich STP-Mittelwert und Erwartungswert der GG: - bei kleinen STP mit n 30 gilt der zentrale Grenzwertsatz nicht, d.h. die STP- Mittelwerte sind nicht normalverteilt - wenn trotzdem gewährleistet ist, dass die GG normalverteilt ist, verteilen sich die Differenzen x – μ entsprechend einer t-Verteilung mit n – 1 Freiheitsgraden - Prüfgröße lautet dann: - kritischer Wert dann aus Tabelle der Funktionswerte der t-Verteilung in Abhängigkeit von α und Anzahl der Freiheitsgrade Φ = n – 1 : - um 1 reduzierte Anzahl der Freiheitsgrade resultiert daraus, dass für die Berechnung des Standardfehlers der Mittelwert eingeht, so dass nur n – 1 Abweichungsquadrate frei variieren dürfen wegen: - Beispiel IQ von männlichen Geographen bei n = 29: Statistische Tests für Intervalldaten H0 annehmen
4.4 • Vergleich von zwei STP-Mittelwerten aus unabhängigen STP: - Alternativhypothese: die beiden STP stammen aus unterschiedlichen GG mit Erwartungswert μ0 und μ1 - unter H0 ist Erwartungswert dieser Differenz gleich Null - gegeben sind zwei STP der Größe n1 bzw. n2 mit Mittelwert x1 bzw. x2 und Varianzen s21 und s22 - Differenz der STP-Mittelwerte ist als Linearkombination zweier unabhängiger ZVA zu verstehen mit Varianz und Standardfehler: - bei unbekannter GG-Varianz ergibt sich geschätzter Standardfehler: Statistische Tests für Intervalldaten
4.4 • Vergleich von zwei STP-Mittelwerten aus unabhängigen STP: - Prüfgröße (t-Test): - diese Prüfgröße ist t-verteilt mit n1 + n2 -2 Freiheitsgraden bzw. mit zunehmen- dem STP-Umfang (n1 + n2 -2 50) normalverteilt - Beispiel: weibliche Geographen sind belastbarer als männliche Geographen (gerichtete H1, einseitiger Test, α = 0,05): Statistische Tests für Intervalldaten
4.4 • Vergleich von zwei STP-Mittelwerten aus abhängigen STP: - bei manchen Fragestellungen werden parallelisierte STP (matched samples) betrachtet, bei denen die Elemente in beiden STP paarweise einander zugeordnet sind (z.B. Ehepartner, wiederholte Messung vor und nach Krankheit) - solche abhängigen STP lassen sich ebenfalls mit t-Test überprüfen, aber Varianzen der beiden STP beeinflussen sich u.U. gegenseitig - zu umgehen, indem nur zusammengehörende Messwertpaare betrachtet werden in Form der ZVA D: - arithmetisches Mittel über alle n Messwertpaare: - nun interessiert die Verteilung des Mittelwertes von Differenzen statt die Verteilung der Differenz von Mittelwerten (t-Test für unabhängige STP, s.o.): Statistische Tests für Intervalldaten
4.4 • Vergleich von zwei STP-Mittelwerten aus abhängigen STP: - Prüfgröße (t-Test): - wegen H0 : μd = 0 gilt für die Prüfgröße unter H0 vereinfacht: - diese Prüfgröße ist t-verteilt mit n – 1 Freiheitsgraden - gilt streng genommen nur, wenn Differenzen in der GG (STP) annähernd normalverteilt, aber t-Test relativ robust ggü. Verletzungen Statistische Tests für Intervalldaten
4.4 • Vergleich von zwei STP-Mittelwerten aus abhängigen STP: - Beispiel: Geographiestudenten schätzen ihre Leistungsfähigkeit in der Statistik falsch ein (ungerichtete H1, α = 0,05): - Geographiestudenten unterschätzen ihre Leistungsfähigkeit signifikant Statistische Tests für Intervalldaten STP1 : geschätzte Anzahl gelöster Aufgaben STP2 : tatsächliche Anzahl gelöster Aufgaben
4.4 • Vergleich STP-Varianz und GG-Varianz: - Alternativhypothese: STP gehört aufgrund der Unterschiedlichkeit ihrer Werte nicht in eine bestimmte GG mit σ02 sondern in GG mit σ12 (ungerichtete H1): - gegeben ist die Varianz σ02 der GG und eine STP der Größe n mit geschätzter Varianz: - Prüfgröße (χ2-Test): - diese Prüfgröße ist χ2-verteilt mit n – 1 Freiheitsgraden - kritischer Wert dann aus Tabelle der Funktionswerte der χ2-Verteilung - diesmal ist Voraussetzung der normalverteilten GG sehr stringent - gegebenenfalls vorab statistischen Test auf NV durchführen (s.u.) Statistische Tests für Intervalldaten
4.4 • Vergleich STP-Varianz und GG-Varianz: - Beispiel: Geographieprofessoren unterscheiden sich stärker in ihren Ge- stimmtheiten als andere Professoren (gerichtete H1, α = 0,05) - aus Eichstichprobe ist Referenzwert der GG bekannt mit σ0 = 15 - bei einer STP von n = 80 Geographieprofessoren wurde ein Wert von = 19 festgestellt - Annahme der NV bei Testwerten der 80 Probanden - χ2-Test: - Gestimmtheit bei Geographieprofessoren schwankt signifikant stärker als bei anderen Professoren Statistische Tests für Intervalldaten
4.4 • Vergleich von zwei STP-Varianzen aus unabhängigen STP: - Alternativhypothese: zwei STP stammen aus Grundgesamtheiten mit unter- schiedlicher Varianz, wobei die GG1 stärker streut als die GG2 (gerichtete H1) - gegeben sind zwei STP mit den Schätzwerten: - Prüfgröße (F-Test): - wegen H0 : σ21 = σ22 gilt für die Prüfgröße unter H0 vereinfacht: Statistische Tests für Intervalldaten
4.4 • Vergleich von zwei STP-Varianzen aus unabhängigen STP: - diese Prüfgröße ist F-verteilt mit: - kritischer Wert dann aus Tabelle der Funktionswerte der F-Verteilung - Annahme der normalverteilten GG ist ebenfalls stringent - Konvention: größere STP-Varianz muss im Zähler stehen, da Tabellenwerte meist nur für die rechte Seite der asymmetrischen F-Verteilung im Intervall [1 < F < ] angegeben werden - bei kleinerer STP-Varianz im Zähler wäre Intervall [0 < F < 1] gefragt - zweiseitige Tests lassen sich ebenfalls nicht durchführen - Test für Varianzen aus abhängigen STP: Wilcox-Test - Beispiel: Würzburger Geographiestudenten decken ein größeres politisches Meinungsspektrum ab als Münchner Geographiestudenten (gerichtete H1, α = 0,05), Operationalisie- rung durch Meinungsindex: Statistische Tests für Intervalldaten