1 / 61

Schließende Statistik

4. Schließende Statistik. 4.1 Schätzverfahren 4.2 Fehlerrechnung 4.3 Prinzip statistischer Tests 4.4 Statistische Tests für Intervalldaten 4.5 Statistische Tests für Ordinaldaten 4.6 Statistische Tests für Nominaldaten. 4.

kobe
Download Presentation

Schließende Statistik

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 4 Schließende Statistik 4.1 Schätzverfahren 4.2 Fehlerrechnung 4.3 Prinzip statistischer Tests 4.4 Statistische Tests für Intervalldaten 4.5 Statistische Tests für Ordinaldaten 4.6 Statistische Tests für Nominaldaten

  2. 4 • Anliegen der schließenden Statistik ist es, aus vorliegenden Daten (Stichproben) auf die Eigenschaften der entsprechenden Grundgesamtheit zu schließen : - deskriptive Statistik: Beschreibung der empirischen Kennwerte und Verteilungen von Stichproben (Kapitel 2) - Wahrscheinlichkeitstheorie: Definition eines theoretischen Modells mit Merkmalsraum, Ereignisfeld und Wahrscheinlichkeiten (Kapitel 3)  schließende Statistik: Verbindung zwischen Empirie und Theorie Schließende Statistik STP GG schließende Statistik Zufallsvariable IQ: Mittelwert empirische Varianz relative Häufigkeiten Erwartungswert Varianz Wahrscheinlichkeit

  3. 4 • in der schließenden Statistik gibt es zwei Arten von Fragestellungen: 1.) Frage nach den Eigenschaften (Parametern) der GG gegeben eine STP (Schätzverfahren) 2.) Frage nach Zugehörigkeit einer oder mehrerer STP zu einer bzw. der gleichen GG (Prüfverfahren) • da eine STP eine Zufallsauswahl aus der GG darstellt, sind die Aussagen der schließenden Statistik immer Wahrscheinlichkeitsaussagen und mit einer bestimmten Unsicherheit behaftet • Schätz- und Prüfverfahren basieren auf sog. STP-Funktionen: Schätz- und Prüffunktionen (manchmal beides) Schließende Statistik Gehören die Temperatur- änderungen in A1 und B1 zur gleichen GG? Statistischer Jargon: Gibt es einen statistisch signifikanten Unterschied zwischen A1 und B1?

  4. 4 • Klassifikation der Prüfverfahren: - Orientierungshilfe für die Auswahl eines geeigneten Testverfahrens - Anpassungstests: gehört STP zu einer GG mit einer bestimmten vorgegebe- nen Verteilung? - Unterschiedstests: gehören zwei STP zu der gleichen oder zu unterschiedli- chen GG Schließende Statistik auf Mittelwert: Lokationstests auf Varianz: Dispersionstests auf Mittelwert und Varianz: Omnibustests • - abhängige versus unabhängige STP • - Skalenniveau der Daten • - eine, zwei oder mehrere STP • parametrische Tests: an bestimmte • Verteilung gebunden; nur Parameter • der Verteilung betrachtet (aussage- • kräftiger, aber mehr Voraussetzun- • gen zu erfüllen) • nichtparametrische Tests: keine An- • nahme über Verteilung; alle Werte • betrachtet • STP-Umfang: einfachere Näherungs- • formeln bei großen STP

  5. 4.1 • als Schätzverfahren wird jede Methode bezeichnet, die geeignet ist, um von der STP-Information auf die unbekannte GG zu schließen: - Aussagen über Kennwerte und Wahrscheinlichkeiten der GG - Vorhersagen über die Eigenschaften zukünftiger STP aus der gleichen GG • 3 Problemkreise der Schätztheorie: - Punktschätzung: Schätzung bestimmter Kennwerte der GG über Schätzformel - Intervallschätzung: Schätzung des Unsicherheitsbereiches, in dem die Parameter der GG mit einer a-priori definierten Wahrscheinlichkeit vermutet werden (Konfidenzintervalle, Mutungsbereiche) - Ereignisschätzung: erwarteter zukünftiger Wertebereich oder Wahrscheinlich- keiten von STP-Realisierungen gegeben die theoretische GG-Verteilung (Exspektanz) Schätzverfahren 99% 90% STP → GG Intervallschätzung s+=84% x=50% s-=16% STP → GG Punktschätzung 10% 1%

  6. 4.1 • Kriterien der Parameterschätzung (Punktschätzung): • - Frage nach geeigneten statistischen Kennwerten als Schätzwert eines Para- • meters der GG • - bislang z.B. arithmetisches Mittel der STP als Schätzer des Erwartungswertes • der GG angenommen (Gesetz der großen Zahlen) • - nach R.A. Fisher (1925) 4 Kriterien für einen geeigneten Schätzer: • hinsichtlich dieser 4 Kriterien sind arithmetisches Mittel und empirische Varianz der Stichprobe die besten Punktschätzer für den Erwartungswert μ und die Varianz σ2 der Grundgesamtheit: • im Hinblick auf die häufig realisierte Normalverteilung, die nur diese beiden Parameter enthält, sind und von zentraler Bedeutung in der schließenden Statistik Schätzverfahren - Erwartungstreue - Konsistenz - Effizienz - Exhaustivität - erwartungstreu - konsistent - erschöpfend - effektiver als andere statistische Kennwerte

  7. 4.1 • Intervallschätzung: - arithmetisches Mittel und empirische Varianz sind zwar geeignete Schätzer für die entsprechenden Parameter der GG - aber Punktschätzung schwankt natürlich zufällig von STP zu STP - gegeben nur eine STP mit arithmetischem Mittel , dann ist die Kennwerteverteilung bei Gültigkeit des zentralen Grenzwertsatzes bekannt: - gegeben die Normalverteilung von liegt der tatsächliche Erwartungswert der GG mit einer bestimmten Wahrscheinlichkeit S in einem bestimmten Intervall [pu,po] um : Schätzverfahren Konfidenzintervall : [pu,po] Sicherheitswahrscheinlichkeit : S = P(pu  μ  p0) Irrtumswahrscheinlichkeit : α = 1 – S

  8. 4.1 • Konfidenzintervall kennzeichnet den Bereich eines Merkmals, in dem sich entsprechend der Wahrscheinlichkeit S ein bestimmter Anteil der möglichen GG-Parameter befindet, die den statistischen Kennwert der STP erzeugt haben könnten (hier zunächst für Erwartungswert μ) - typischerweise werden sog. Konfidenzkoeffizienten mit S=90%, S=95% oder S=99% vorgegeben - Bestimmung der Intervallgrenzen erfolgt über Quantile der standardisierten Normalverteilung: - diese Quantile lassen sich zurücktransformieren gegeben und : - allgemein gilt für das Konfidenzintervall des Erwartungswertes: Schätzverfahren - kürzestes Konfidenzintervall - symmetrisch um x

  9. 4.1 • Beispiel zum Konfidenzintervall für den Erwartungswert: - 250 Studenten wurden nach der Entfernung zwischen Wohnung und Uni gefragt - im Mittel 3400 m bei einer Standardabweichung von 1100 m - Konfidenzintervall der GG (alle Studenten) bei Irrtumswahrscheinlichkeit von 5% bzw. 1%? - mit einer Sicherheit von 95% (99%) liegt der Erwartungswert der GG im Bereich 3264m bis 3536m (3221m bis 3579m) Schätzverfahren

  10. 4.1 • Konfidenzintervall für den Erwartungswert bei kleinen STP: - Voraussetzung der Normalverteilung der Stichprobenmittelwerte nur erfüllt für hinreichend große STP (zentraler Grenzwertsatz) - bei n < 30 ist der Quotient der z-Transformation t-verteilt mit n-1 Freiheits- graden: - Beispiel: wie oben, aber mit n = 25 befragte Studenten: • - mit einer Sicherheit von 95% liegt der Erwartungswert der GG im • Bereich 3256m bis 3544m Schätzverfahren

  11. 4.1 • Konfidenzintervall für die Varianz und Standardabweichung: - gegeben sind die empirischen Varianzen s2 von Zufalls-STP der Größe n - die Kennwerteverteilung der s2 ist dann χ2-verteilt mit n – 1 Freiheitsgraden - wegen der Asymmetrie der χ2-Verteilung sind zwei unterschiedliche Quantil- werte zu bestimmen: - aus der Tabelle der Funktionswerte der χ2-Verteilung lassen sich die beiden Quantilwerte ablesen: - Konfidenzintervall für die Varianz σ2 der GG gegeben die empirische Varianz s2 einer STP der Größe n: - analog gilt für die Standardabweichung σ der GG: Schätzverfahren

  12. 4.1 • Beispiel zum Konfidenzintervall für die Standardabweichung: - wie oben mit n = 250 befragten Studenten und α = 5%: • - mit einer Sicherheit von 95% liegt die Standardabweichung der GG im • Bereich 1010m bis 1203m Schätzverfahren

  13. 4.1 • Exspektanz: - gegeben eine bekannte oder vermutete Verteilungsfunktion FX(x) der GG lässt sich der Wertebereich bestimmen, in dem bei zukünftigen STP Werte mit einer bestimmten Wahrscheinlichkeit S auftreten - bei einem symmetrischen Wertebereich Δx um das arithmetische Mittel der STP mit den Grenzen xu, und xo gilt: - Wertebereich Δx heißt Exspektanz: Mutungsbereich, in dem zukünftige STP- Werte mit einer Wahrscheinlichkeit S=1-α erwartet werden (bei NV): - 2 komplementäre Fragestellungen: - die Berechnung kann entweder direkt mit einer bekannten theoretischen oder mit einer empirischen Verteilungsfunktion durchgeführt werden - bei empirischen Verteilungen ist zunächst zu überprüfen, welche Verteilung der STP-Werte realisiert ist, um die richtigen Quantile bei der Berechnung der Konfidenzintervalle zu verwenden Schätzverfahren Standardabweichung s der STP wird hier nicht mit normiert, da es nicht um die Streuung des STP-Mittels, sondern der STP-Werte geht - S gegeben und Δx gesucht - Δx gegeben und S gesucht

  14. 4.1 • Beispiel zur Exspektanz: - mittlere Oktobertemperaturen in Würzburg 1911-1960 (n = 50): - Einteilung in 7 Klassen mit absoluten, rela- tiven und akkumulierten Häufigkeiten: - graphische Schnellprüfung der klassifizierten Messwerte auf Normalverteilung: Schätzverfahren Wahrscheinlichkeitsnetz Gerade → NV(x,s) - Abzisse: Klassenobergrenzen - Ordinate: kumulative prozentuale Häufigkeiten

  15. 4.1 • Beispiel zur Exspektanz: - Kennwerte der STP: - Konfidenzintervalle der GG-Parameter: - obwohl das Konfidenzintervall für σ relativ groß ist, wird zunächst auch für die GG eine Normalverteilung angenommen - Frage: in welchem Wertebereich Δx ist in S=90% der Fälle eine beobachtete Oktobertemperatur zu erwarten? - Exspektanz um Stichprobenmittel wie folgt zu berechnen: - wegen des großen Konfidenzintervalls von σ kann auch von einem zu kleinen STP-Umfang ausgegangen werden, was dann die Berechnung auf Basis der t- Verteilung impliziert: Schätzverfahren

  16. 4.1 • Festlegung des Stichprobenumfangs: - STP-Umfang, Irrtumswahrscheinlichkeit und Konfidenzintervalle hängen un- mittelbar zusammen - in der Praxis wird schmales Konfidenzintervall bei hoher Sicherheit bevorzugt - gegeben eine angestrebte Genauigkeit (L = Δcrit) und eine Irrtumswahrschein- lichkeit α lässt sich der Mindestumfang der STP berechnen - STP-Umfang für Konfidenzintervall der Länge L von Erwartungswert μ mit bestimmtem Konfidenzkoeffizienten S: • - Beispiele zur Bestimmung des STP-Umfangs: Schätzverfahren

  17. 4.1 • Festlegung des Stichprobenumfangs: - mit kleiner werdender Konfidenzintervallbreite (KIB) wächst der benötigte STP-Umfang quadra- tisch an: für Halbierung des Konfidenzintervalls benötigt man den 4-fachen STP-Umfang - STP-Umfang ist auch Funktion der Irrtumswahr- scheinlichkleit α, aber weniger sensitiv - STP-Umfang hängt auch von der empirischen Varianz s2 innerhalb der STP ab: - Beispiel: - empirische Varianz a-priori meist nicht bekannt; dann u.U. kleine Voruntersuchung durchführen und σ2 = s2 iterativ festlegen Schätzverfahren je kleiner die empirische Varianz der STP desto kleiner der Standardfehler der STP und desto kleiner der benötigte STP-Umfang  Klumpen-STP statt Zufalls-STP

  18. 4.2 • in den Geowissenschaften beruhen viele STP-Daten auf physikalischen Messungen: - begrenzte Messgenauigkeit aus technischen Gründen - Variationen des Messsystems - Variationen durch die menschliche Handhabung  Fluktuationen der Messwerte bei ansonsten gleichen Randbedingngen: • 2 Arten von Messfehlern: - systematische Fehler: - bevorzugte Richtung der Abweichung vom Zielwert - potentiell erkennbar und eliminierbar - z.B. Strahlungseinfluss auf Thermometer - stochastische Fehler: - zufällige Streuung um Zielwert - prinzipiell nicht eliminierbar - z.B. Messgenauigkeit des Niederschlages  Trennung der beiden Fehlerarten entweder kausal (Ursachen: z.B. Mess- apparatur) oder empirisch( z.B. durch systematische Abweichungen vom gesetzmäßigen Verhalten der zufälligen Fehler = Fehlerverteilungsgesetze) Fehlerrechnung systematischer Messfehler (raumzeitunabh.) systematischer Messfehler (raumzeitabh.) Messwert an einem Ort zu einem Zeitpunkt Zielwert: deterministisch, beliebig genau Messfehler stochastischer Messfehler (raumzeitabh.)

  19. 4.2 • Ursachen für das Auftreten von systematischen Fehlern: - Apparaturfehler: Messanordnung, Eichfehler, Skalenfehler, Trägheitsfehler - Handhabungsfehler: Parallaxenfehler beim Ablesen, Körpertemperatur, Erschütterungen, Bedienfehler - Auswertungsfehler: Umrechnung, Rundung, Statistik, graphische Darstellung - Interpretationsfehler: Fehlinterpretation wegen fehlender Metadaten • Fehlerverteilungsgesetze: - auch wenn keine systematischen Fehler vorliegen existieren immer zufällige Fehler - verbleibende Messwertvariationen verlaufen nach bestimmten Gesetzen: Fehlerverteilungsgesetze nach Gauß (1777-1855): bei unendlich vielen Messungen xi stellt sich bei diskreten (metrischen) Daten die Binomialvertei- lung (Normalverteilung) exakt ein - anhand der Häufigkeitsverteilung der Messwerte lässt sich beurteilen, ob nur noch zufällige Fehler verbleiben: Fehlerrechnung f f NV / b: nur εz systematischer “Bias“: εs + εz xi xi

  20. 4.2 • Fehlerschätzung: - zufällige Fehler legen die Messgenauigkeit einer Versuchsapparatur fest - Bestimmung der Messgenauigkeit mit Hilfe der Fehlerschätzung nach Gauß - gegeben eine Messreihe xi , i=1..n unter konstanten Rahmenbedingungen: einfache Fehlerschätzung - ohne stochastische Fehler sollte sich numerisch exakt der gleiche Wert für alle xi einstellen - nach Gauß ist das arithmetische Mittel der xi der sog. Bestwert der Messung, der sich im Falle εz = 0 einstellen würde - zufällige Fehler werden als Unschärfe der Messwerte definiert: Zahlenwert- intervall im Sinne eines Mutungsbereiches - theoretisch mit Sicherheitswahrscheinlichkeit S zu verbinden, in der Praxis aber meist nur Bereich zwischen ±1∙s mit S = 68,26% (bei NV) angegeben: - keine sehr konservative Schätzung für die Messgenauigkeit: besser S = 95% Fehlerrechnung absoluter Standardfehler des Bestwertes relativer Standardfehler des Bestwertes

  21. 4.2 • Beispiel zur Fehlerschätzung: - Messreihe mit 8 Versuchen unter identischen Randbedingungen: - Messgenauigkeit wird bereits durch die erste Ziffer des absoluten Standard- fehlers festgelegt - Messresultat lautet somit: - bei abgeleiteten Größen sollte die Messgenauigkeit mit einer Ziffer weniger angegeben werden als bei den Originaldaten Fehlerrechnung

  22. 4.2 • Fehlerfortpflanzung: - im Gegensatz zur einfachen Fehlerschätzung nun Messergebnis E betrachtet, das sich aus mehreren fehlerbehafteten Messgrößen a,b,c,... zusammensetzt: - Bestwert des zusammengesetzten Messergebnisses ist: - ferner sind die absoluten und relativen (nichtprozentualen) Standardfehler der Einzelmessgrößen und des zusammengesetzten Messergebnisses: - Fehlerfortpflanzungsgesetz nach Gauß: Fehlerrechnung

  23. 4.2 • Fehlerfortpflanzung: - nach den Regeln der Differentialrechnung ergeben sich für verschiedene Rechenoperationen zwischen den Einzelmessgrößen die folgenden Fehler- abschätzungen: - in der Praxis lässt sich Fehlerfortschreibung entweder analytisch oder durch sukzessives Einbringen der individuellen Fehlergrößen in die Funktionsglei- chung von E = f(a,b,c,…) bewerkstelligen Fehlerrechnung

  24. 4.2 • Beispiel zur Fehlerfortpflanzung: - gesucht ist Messgenauigkeit für das zusammengesetzte Messergebnis: - Messreihen und -fehler zu den einzelnen Messgrößen a,b,c: - sukzessives Vorgehen gemäß E = f(a,b,c): - das zusammengesetzte Messergebnis lautet E = 275±59 Fehlerrechnung

  25. 4.3 • neue Fragestellung: zuerst Eigenschaften der GG postulieren und dann prüfen, ob diese Eigenschaften durch eine STP bestätigt werden können • daran schließt sich Frage an, wie stark ein STP-Kennwert von einem GG-Parameter abweichen darf, um als Bestätigung für die Grundannahmen zur GG zu gelten • Brauchbarkeit der Theorie zu einer GG lässt sich dadurch bemessen, inwiefern sich Teilaussagen dieser Theorie (Hypothesen) in der Praxis bewähren • Alternativhypothesen (Gegenhypothesen): - beinhalten innovative Aussagen, die über den gegenwärtigen Kenntnisstand der Wissenschaft hinausgehen - Aufgabe der Wissenschaft besteht darin zu überprüfen, ob die Realität durch solche Alternativhypothesen besser erklärt werden kann Prinzip statistischer Tests Alternativhypothese: “Das Wertheim-Village schafft neue Arbeitsplätze.“

  26. 4.3 • Alternativhypothesen: - Unterschiedshypothesen: Häufigkeits- und Mittelwertvergleiche - Zusammenhanghypothesen: Korrelationsrechnung - gerichtete Hypothese: Änderung in eine bestimmte Richtung (besser/schlechter, größer/kleiner, …); negative/positive Korrelation - ungerichtete Hypothese: Änderung allgemein; Korrelation allgemein - spezifische Hypothese: Änderung um (mindestens) einen bestimmten Betrag - unspezifische Hypothese: Änderung allgemein - Hypothesenformulierung hängt von den Vorkenntnissen zum Sachverhalt ab: - Überprüfung einer Hypothese erfordert Übersetzung der wissenschaftlichen Hypothese in eine statistische Alternativhypothese H1: Prinzip statistischer Tests ungerichtete unspezifische Hypothese gerichtete spezifische Hypothese Stand der Vorkenntnisse statistische Alternativhypothese: “Im Mittel war die Arbeitslosenquote vorher (μo) höher als hinterher (μ1).“ wissenschaftliche Hypothese: “Das Wertheim-Village schafft neue Arbeitsplätze.“ Nomenklatur: H1 : μ0 > μ1 H1 : ρ > 0 Operationa- lisierung

  27. 4.3 • Nullhypothese: - konkurrierend zur Alternativhypothese: konservativer Standpunkt - beinhaltet keine inhaltliche Aussage außer der Negation von H1 - statistische Nullhypothese ist zwingend komplementär zur Alternativhypothe- se: - in der klassischen Prüfstatistik repräsentiert die Nullhypothese die Basis, bezüglich derer die Alternativhypothese akzeptiert werden darf oder nicht - nur wenn die Realität nicht mit der Nullhypothese vereinbar ist, darf Alternativ- hypothese akzeptiert werden (konservative Sicht in der Wissenschaft) Prinzip statistischer Tests Unterschiedshypothesen: Zusammenhanghypothesen:

  28. 4.3 • Entscheidung über Richtigkeit einer der beiden Hypothesen anhand der STP-Daten: - verbunden mit Unsicherheit (=Wahrscheinlichkeit) - durch zufällige STP-Auswahl könnten die beiden Hypothesen fälschlicher- weise akzeptiert bzw. verworfen werden • Fehlerarten bei statistischen Entscheidungen: - α-Fehler: Nullhypothese wird fälschlicherweise verworfen - β-Fehler: Nullhypothese wird fälschlicherweise angenommen - in der Praxis können beide Fehlerarten zu Fehlentscheidungen mit teils gravierende Konsequenzen führen (z.B. Fehlinvestitionen, unzureichende Sicherheitsmaßnahmen etc.) Prinzip statistischer Tests

  29. 4.3 • Signifikanz: - Qualität einer statistischen Entscheidung kann verstanden werden als die Wahrscheinlichkeit, einen α- oder β-Fehler zu begehen - Wahrscheinlichkeit für einen α-Fehler heißt Irrtumswahrscheinlichkeit (Signifikanz): bedingte Wahrscheinlichkeit gegeben H0 in der GG - Bestimmung der Irrtumswahrscheinlichkeit α basiert auf der Zufallsverteilung der Stichprobenmittelwerte: Prinzip statistischer Tests nach dem zentralen Grenzwertsatz sind Stichprobenmittel einer GG normalverteilt mit μ0 und σX Mittelwert einer bestimmten STP sei x (z.B. Arbeitslosenquote hinterher) schraffierte Fläche kennzeichnet Wahr- scheinlichkeit, dass der Wert x in der GG erreicht oder überschritten wird diese Fläche kennzeichnet die Irrtums- wahrscheinlichkeit α bei einer Entschei- dung zu Ungunsten der Nullhypothese

  30. 4.3 • Signifikanz: - in der Praxis ist empirische Ermittlung der Zufallsverteilung der STP-Mittelwer- te meist zu aufwendig (sehr viele Befragungen/Versuche nötig) - aber diese Verteilung lässt sich schätzen aus einer oder mehreren STP der GG, die die Nullhypothese kennzeichnet: - gegeben den Mittelwert x einer spezifischen zu überprüfenden STP von hin- reichendem Umfang lässt sich die Irrtumswahrscheinlichkeit α über eine z- Transformation ermitteln: Prinzip statistischer Tests Irrtumswahrscheinlichkeit je nach Fragestellung: Überschreitungswahrscheinlichkeit: α = 1 - P(X  z) Unterschreitungswahrscheinlichkeit: α = P(X  -z) μ0 z -z

  31. 4.3 • Beispiel zur Signifikanz: - neues Lehrkonzept in der Statistikvorlesung besser? - bei herkömmlichem Lehrkonzept μ0 = 40 Testaufgaben gelöst mit einer Streuung von σ = 8 (Verteilung der Werte unter H0) - bei 100 Studenten wurden unter dem neuen Lehrkonzept im Mittel 42 Test- aufgaben gelöst - Standardfehler der STP-Mittelwerte in der GG: - z-Transformation des zu überprüfenden STP-Mittelwertes: - Funktionswert aus der Tabelle der Verteilungsfunktion der Standard-NV liefert: - ein STP-Mittelwert von x = 42 tritt nur in 0,62% der STP aus der GG der Nullhypothese auf - Ablehnung der Nullhypothese erfolgt mit einer Irrtumswahrscheinlichkeit von 0,62% (sehr gering) → H1 zu akzeptieren: neues Lehrkonzept besser! Prinzip statistischer Tests

  32. 4.3 • Signifikanzniveau: - Beitrag der Statistik endet bei der Berechnung der Irrtumswahrscheinlichkeit - darüber hinaus ist nur eine subjektive Einschätzung und Entscheidungsfin- dung möglich - zur Vergleichbarkeit statistischer Entscheidungen hat sich die Konvention etabliert, eine Nullhypothese erst bei α = 5% bzw. α = 1% abzulehnen - diese Schwellenwerte der Irrtumswahrscheinlichkeit heißen Signifikanzniveau: - Auswahl eines Signifikanzniveaus muss a-priori erfolgen je nach Ausmaß der Konsequenzen aus einer fälschlicherweise abgelehnten Nullhypothese - Beispiel zum neuen Lehrkonzept führt mit der Annahme von H1 zu einem sehr signifikanten Ergebnis - häufige Missverständnisse: Signifikanzaussage ist nicht identisch mit der: Prinzip statistischer Tests signifikantes Ergebnis: H0abgelehnt bei α = 5%  P(Ergebnis|H0)  5% sehr signifikantes Ergebnis: H0 abgelehnt bei α = 1%  P(Ergebnis|H0)  1% • Wahrscheinlichkeit des Ergebnisses: P(Ergebnis|H0) ≠ P(Ergebnis) • Wahrscheinlichkeit der Nullhypothese: P(Ergebnis|H0) ≠ P(H0) • Wahrscheinlichkeit des Alternativhypothese: P(Ergebnis|H0) ≠ 1 - P(H0) • Wahrscheinlichkeit der H0 gegeben das Ergebnis: P(Ergebnis|H0) ≠ P(H0|Ergebnis) • stattdessen Verknüpfung über Bayes-Theorem:

  33. 4.3 • Signifikanzniveau: - die Chance auf ein signifikantes Ergebnis vergrößert sich mit dem STP- Umfang, dem Abstand x – μ0 und einer kleineren Streuung innerhalb der GG: - Annahme der Alternativhypothese einer neuen Theorie erfolgt nur indirekt durch Ablehnung der Nullhypothese - Signifikanzniveaus von 5% bzw. 1% sollen als gute wissenschaftliche Praxis verstanden werden, um neue Theorien gegenüber Spekulationen abzusichern - in der Alltagswelt begnügen wir uns bei vielen Entscheidungen bereits mit einer Irrtumswahrscheinlichkeit von 20% Prinzip statistischer Tests

  34. 4.3 • Ein- und zweiseitige Tests: - einseitiger Test: gerichtete Hypothesen H1 : μ1 > μ0 , μ1 < μ0 - zweiseitiger Test: ungerichtete Hypothesen: μ1≠μ0 Prinzip statistischer Tests einseitiger Test: Fläche von α nur auf eine Seite der Verteilung beschränkt entsprechende Quantile liegen näher am Mittelwert μ0 = 40: zweiseitiger Test: Fläche von α auf beide Seiten der Verteilung aufgeteilt entsprechende Quantile liegen weiter entfernt vom Mittelwert μ0 = 40: “kritischer Wert“

  35. 4.3 • Ein- und zweiseitige Tests: - zweiseitige Hypothesenformulierung erhöht den kritischen Wert und somit die Chance, dass die Nullhypothese bei einem festen α angenommen wird - klassischer inhaltlicher Bezug: eine Alternativhypothese mit mehr Vorkenntnis wird eher bestätigt • Statistische Signifikanz und praktische Bedeutung: - ein signifikantes Ergebnis ist abhängig vom STP-Umfang, also nicht auf beliebige STP unterschiedlicher Größe zu transferieren: - bei genügend großen STP ist jede Nullhypothese zu verwerfen: Wert der Signifikanzaussage? Prinzip statistischer Tests gleiche Differenz x – μ0 führt zu unterschiedlichen Entscheidungen über H1 in Abhängigkeit von n Frage nach praktischer Relevanz von 0,19 mehr richtigen Testaufgaben trotz statistischer Signifikanz

  36. 4.3 • Statistische Signifikanz und praktische Bedeutung: - es ist ein objektiver Standard gefordert, der eine statistische Entscheidung mit Kriterien der praktischen Bedeutsamkeit verbindet: Effektgröße - Effektgröße kennzeichnet den Mindestunterschied zwischen zwei GG, um von praktischer Relevanz zu sein: - Effektgröße wird mathematisch wie folgt definiert: - Festlegung der Effektgröße muss a-priori erfolgen und ist immer an inhaltli- chen Fragestellungen orientiert: - bei festgelegter Effektgröße und Irrtumswahrscheinlichkeit lässt sich der benö- tigte STP-Umfang ableiten (s.u.) Prinzip statistischer Tests - Mittelwertdifferenz x – μ0 - Mindestkorrelation - Prozentwertdifferenz Wie viele mehr gelöste Testaufgaben rechtfertigen den Aufwand eines neuen Lehrkonzeptes? Welche Reduktion der Arbeitslosenquote führt zu relevanten Impulsen beim Konsum?

  37. 4.4 • bislang statistischen Kennwert einer STP mit dem zugehörigen Parameter einer bekannten GG verglichen • in der Praxis sind GG-Parameter selten bekannt, so dass Kennwerte eher zwischen STP verglichen werden • je nach Skalenart der Daten unterschiedliche Tests: • im Zweifelsfall sind immer mehrere Tests durchzuführen und bei unter-schiedlichen Ergebnissen immer der Test mit den geringsten Anforderun-gen an das Skalenniveau zu bevorzugen • zusätzlich noch Unterscheidung nach Zusammenhang der verglichenen STP: Statistische Tests für Intervalldaten - Intervall-/Rationalskala - Ordinalskala - Nominalskala - unabhängige Stichproben - abhängige Stichproben

  38. 4.4 • Vergleich STP-Mittelwert und Erwartungswert der GG: - Alternativhypothese: Zufalls-STP gehört zu einer GG mit Erwartungswert μ1, die von einer Referenz-GG mit E(X) = μ0 abweicht: - Entscheidung hängt von der Differenz ab - bei hinreichend großen STP sind STP-Mittel unter der H0 normalverteilt: - Differenz kann in Standardnormalverteilung transformiert werden: - aus Tabelle der Standardnormalverteilung wird kritischer Wert für eine vorge- gebene Irrtumswahrscheinlichkeit α bei ein- oder zweiseitigem Test abgelesen und Entscheidung getroffen: Statistische Tests für Intervalldaten bei kleinen STP kann u.U. die Binomialverteilung unter H0 realisiert sein: Binomial-Test Prüfgröße: Prüfgröße jenseits des kritischen Wertes: Prüfgröße diesseits des kritischen Wertes:

  39. 4.4 • Vergleich STP-Mittelwert und Erwartungswert der GG: - graphische Veranschaulichung der möglichen Fälle: Statistische Tests für Intervalldaten H1 : μ0 < μ1 H1 : μ0 > μ1 einseitiger Test H1 : μ0 ≠ μ1 z führt zur Annahme von H0 z führt zur Annahme von H1 zweiseitiger Test

  40. 4.4 • Vergleich STP-Mittelwert und Erwartungswert der GG: - Beispiel: männliche Geographen haben einen geringeren IQ (gerichtete H1) als die GG aller Männer: - bekannte GG mit μ0 = 100 und σ = 10 - STP mit n = 36 Geographen und x = 98 - Prüfgröße: - kritischer Wert bei α = 0,05, einseitiger Test: - statistische Entscheidung: - Antwortsätzchen: Statistische Tests für Intervalldaten  “Männliche Geographen sind nicht dümmer als andere Männer“

  41. 4.4 • Vergleich STP-Mittelwert und Erwartungswert der GG: - bei kleinen STP mit n  30 gilt der zentrale Grenzwertsatz nicht, d.h. die STP- Mittelwerte sind nicht normalverteilt - wenn trotzdem gewährleistet ist, dass die GG normalverteilt ist, verteilen sich die Differenzen x – μ entsprechend einer t-Verteilung mit n – 1 Freiheitsgraden - Prüfgröße lautet dann: - kritischer Wert dann aus Tabelle der Funktionswerte der t-Verteilung in Abhängigkeit von α und Anzahl der Freiheitsgrade Φ = n – 1 : - um 1 reduzierte Anzahl der Freiheitsgrade resultiert daraus, dass für die Berechnung des Standardfehlers der Mittelwert eingeht, so dass nur n – 1 Abweichungsquadrate frei variieren dürfen wegen: - Beispiel IQ von männlichen Geographen bei n = 29: Statistische Tests für Intervalldaten  H0 annehmen

  42. 4.4 • Vergleich von zwei STP-Mittelwerten aus unabhängigen STP: - Alternativhypothese: die beiden STP stammen aus unterschiedlichen GG mit Erwartungswert μ0 und μ1 - unter H0 ist Erwartungswert dieser Differenz gleich Null - gegeben sind zwei STP der Größe n1 bzw. n2 mit Mittelwert x1 bzw. x2 und Varianzen s21 und s22 - Differenz der STP-Mittelwerte ist als Linearkombination zweier unabhängiger ZVA zu verstehen mit Varianz und Standardfehler: - bei unbekannter GG-Varianz ergibt sich geschätzter Standardfehler: Statistische Tests für Intervalldaten

  43. 4.4 • Vergleich von zwei STP-Mittelwerten aus unabhängigen STP: - Prüfgröße (t-Test): - diese Prüfgröße ist t-verteilt mit n1 + n2 -2 Freiheitsgraden bzw. mit zunehmen- dem STP-Umfang (n1 + n2 -2  50) normalverteilt - Beispiel: weibliche Geographen sind belastbarer als männliche Geographen (gerichtete H1, einseitiger Test, α = 0,05): Statistische Tests für Intervalldaten

  44. 4.4 • Vergleich von zwei STP-Mittelwerten aus abhängigen STP: - bei manchen Fragestellungen werden parallelisierte STP (matched samples) betrachtet, bei denen die Elemente in beiden STP paarweise einander zugeordnet sind (z.B. Ehepartner, wiederholte Messung vor und nach Krankheit) - solche abhängigen STP lassen sich ebenfalls mit t-Test überprüfen, aber Varianzen der beiden STP beeinflussen sich u.U. gegenseitig - zu umgehen, indem nur zusammengehörende Messwertpaare betrachtet werden in Form der ZVA D: - arithmetisches Mittel über alle n Messwertpaare: - nun interessiert die Verteilung des Mittelwertes von Differenzen statt die Verteilung der Differenz von Mittelwerten (t-Test für unabhängige STP, s.o.): Statistische Tests für Intervalldaten

  45. 4.4 • Vergleich von zwei STP-Mittelwerten aus abhängigen STP: - Prüfgröße (t-Test): - wegen H0 : μd = 0 gilt für die Prüfgröße unter H0 vereinfacht: - diese Prüfgröße ist t-verteilt mit n – 1 Freiheitsgraden - gilt streng genommen nur, wenn Differenzen in der GG (STP) annähernd normalverteilt, aber t-Test relativ robust ggü. Verletzungen Statistische Tests für Intervalldaten

  46. 4.4 • Vergleich von zwei STP-Mittelwerten aus abhängigen STP: - Beispiel: Geographiestudenten schätzen ihre Leistungsfähigkeit in der Statistik falsch ein (ungerichtete H1, α = 0,05): - Geographiestudenten unterschätzen ihre Leistungsfähigkeit signifikant Statistische Tests für Intervalldaten STP1 : geschätzte Anzahl gelöster Aufgaben STP2 : tatsächliche Anzahl gelöster Aufgaben

  47. 4.4 • Vergleich STP-Varianz und GG-Varianz: - Alternativhypothese: STP gehört aufgrund der Unterschiedlichkeit ihrer Werte nicht in eine bestimmte GG mit σ02 sondern in GG mit σ12 (ungerichtete H1): - gegeben ist die Varianz σ02 der GG und eine STP der Größe n mit geschätzter Varianz: - Prüfgröße (χ2-Test): - diese Prüfgröße ist χ2-verteilt mit n – 1 Freiheitsgraden - kritischer Wert dann aus Tabelle der Funktionswerte der χ2-Verteilung - diesmal ist Voraussetzung der normalverteilten GG sehr stringent - gegebenenfalls vorab statistischen Test auf NV durchführen (s.u.) Statistische Tests für Intervalldaten

  48. 4.4 • Vergleich STP-Varianz und GG-Varianz: - Beispiel: Geographieprofessoren unterscheiden sich stärker in ihren Ge- stimmtheiten als andere Professoren (gerichtete H1, α = 0,05) - aus Eichstichprobe ist Referenzwert der GG bekannt mit σ0 = 15 - bei einer STP von n = 80 Geographieprofessoren wurde ein Wert von = 19 festgestellt - Annahme der NV bei Testwerten der 80 Probanden - χ2-Test: - Gestimmtheit bei Geographieprofessoren schwankt signifikant stärker als bei anderen Professoren Statistische Tests für Intervalldaten

  49. 4.4 • Vergleich von zwei STP-Varianzen aus unabhängigen STP: - Alternativhypothese: zwei STP stammen aus Grundgesamtheiten mit unter- schiedlicher Varianz, wobei die GG1 stärker streut als die GG2 (gerichtete H1) - gegeben sind zwei STP mit den Schätzwerten: - Prüfgröße (F-Test): - wegen H0 : σ21 = σ22 gilt für die Prüfgröße unter H0 vereinfacht: Statistische Tests für Intervalldaten

  50. 4.4 • Vergleich von zwei STP-Varianzen aus unabhängigen STP: - diese Prüfgröße ist F-verteilt mit: - kritischer Wert dann aus Tabelle der Funktionswerte der F-Verteilung - Annahme der normalverteilten GG ist ebenfalls stringent - Konvention: größere STP-Varianz muss im Zähler stehen, da Tabellenwerte meist nur für die rechte Seite der asymmetrischen F-Verteilung im Intervall [1 < F < ] angegeben werden - bei kleinerer STP-Varianz im Zähler wäre Intervall [0 < F < 1] gefragt - zweiseitige Tests lassen sich ebenfalls nicht durchführen - Test für Varianzen aus abhängigen STP: Wilcox-Test - Beispiel: Würzburger Geographiestudenten decken ein größeres politisches Meinungsspektrum ab als Münchner Geographiestudenten (gerichtete H1, α = 0,05), Operationalisie- rung durch Meinungsindex: Statistische Tests für Intervalldaten

More Related