Eine (sehr) einfache , erste Anleitung zur Datenauswertung bzw. Hypothesenprüfung (bitte unbedingt durch Hilfefunktion

Eine (sehr) einfache, erste Anleitung zur Datenauswertung bzw. Hypothesenprüfung (bitte unbedingt durch Hilfefunktion/Lehrbuch ergänzen) Zunächst müssen, sofern nicht vorhanden, die Daten eingegeben werden. Dazu kann es sinnvoll und nützlich sein, einen sog. Codierplan zu erstellen, der festlegt, welche Variable, an welcher Stelle in der Liste stehen sollen und welcher Datentyp Und welches Wertelabel verwendet werden soll. Auf der nächsten Seite ist ein Beispiel für einen solchen Codierplan wiedergegeben. Wichtig ist die Möglichkeit zu beachten, zwischen Datenansicht und Variablenansicht wechseln zu können■. Die Datenansicht zeigt die eingegebenen Daten, die Variablen- Ansicht die Spezifikation.

In der Variablenansicht kann bspw. der Name der Variablen, das Variablenlabel (der hier eingetragene Name erscheint auf allen Ergebnisdarstellungen!!) und die Wertelabels eingetragen werden (sie definieren, was die eingegebenen Werte bedeuten sollen; in dem Beispiel 0 = keine Angabe, 1 = Mädchen; 2 = Junge). Wichtig ist noch die Unterscheidung des Variablentyps, bspw. in Numerisch (dann können Zahlen eingegeben werden) oder String (dann kann jedes Zeichen, auch Buchstaben, eingegeben werden).

Was die Auswertung betrifft, so soll hier vor allem auf die Bedeutung einer Beschäftigung (man sollte besser von einem Studieren sprechen) mit den Daten aufmerksam gemacht werden. Man muss die Daten angucken (was komisch klingen mag). Dazu sind oft Graphiken hilfreich und wichtig. Dann muss man darüber (manchmal etwas länger) nachdenken, was man da eigentlich sieht oder sehen kann. Dann erst sollte begonnen werden, das, was man sieht, durch eine Auswertung in eine Form zu bringen, die die Größe oder die Bedeutung dessen, was man gesehen hat, auch bewertbar macht. In sehr grober Form folgt die Auswertung also dem Schema: Ich sehe mehr kluge Mädchen als Jungen, der Effekt ist etwa so und so groß. Die nächste Abbildung zeigt eine mögliche Schrittfolge. Im Folgenden werden dann (ein wenig) Theorie und (ein wenig) Praxis über die Abarbeitung dieser Schritte erläutert.

Was soll untersucht, analysiert werden? Eine Frage könnte lauten: „Erhöht sich die Merkleistung mit der Übungsdauer, mit der ein Musikinstrument geübt wird?“ Dabei würde der folgende Zusammenhang unterstellt: Je länger geübt wird, desto größer die Merkleistung oder je größer die Merkleistung, desto länger wird geübt Merkleistung im Block-Tapping-Test Übungsdauer in Stunden pro Woche

Für eine erste Prüfung würde man die ermittelten Werte in einem sog. Scatterplot betrachten [wird später erläutert und vorgeführt]. Ein Scatterplott von Werte könnte dann so aussehen: Wären die Ergebnisse so, dann wäre die genannte Vermutung empirisch belegt

Doch leider – oder zum Glück – sind die Dinge in der Realität selten so klar und einfach. Realistischer ist bspw. der folgende Befund: Die Frage ist nun, wie groß ist hier der Zusammenhang, mit welchem Maß kann dieser bestimmt und bewertet werden?

Dazu wird die Korrelation zwischen der Verteilung von zwei Variablen berechnet. • Das Prinzip zeigte sich bereits der letzten Graphik, es fragt – einfach gesprochen – • nach den Abständen der Punkte von einer „idealen“ Graden zwischen den Punkten. • Diese werden wie folgt ermittelt: • Es wird eine „ideale“ Gerade (Ŷ) zwischen den Punkten berechnet (es wird nach den kleinsten Quadraten der Abstände gesucht) • Die Abstände zwischen dieser Geraden und den Punkten werden berechnet • Diese Grade könnte etwa wie folgt liegen (siehe Graphik) Ŷ

Dann wird der Mittelwert aller Werte berechnet und ebenfalls eingetragen (dünne Linie). Im Anschluss werden für jeden Punkt (Stern) drei Werte berechnet (hier veranschaulicht an dem hervorgehobenen ‚schwarzen‘ Stern): 3) Die Gesamtabweichung des Stichprobenwertes vom Mittelwert, der in zwei weitere Abschnitte unterteilt werden kann, in 1) dem Abstand eines Wertes zwischen Regressionsgraden und dem Mittelwert, der sich durch die Regressionsgrade erklärt und daher als „erklärte Abweichung“ bezeichnet wird und 2) dem Abstand zwischen dem Wert und der Regressionsgraden, der aus anderen Einflüssen resultiert und der als Residuum bezeichnet wird. 2 3 Ŷ 1 y

Mit Hilfe dieser drei Werte werden nun die folgenden Kenngrößen berechnet: Gesamtabweichung = Erklärte Abweichung + Residuum (yx – Mittelwert) = (ŷx – Mittelwert) + (yx – ŷx) Indem die daraus resultierenden Zahlen in Relation gesetzt werden, ergibt sich der Prozentsatz der durch die Regressionsgraden aufgeklärten Abweichung Im Unterschied zu der Gesamtabweichung einer einzelnen Beobachtung wird die Summe der quadrierten Gesamtabweichungen aller Beobachtungen als Gesamtstreuung bezeichnet: Gesamtstreuung = Erklärte Streuung + nicht erklärte Streuung (Residuum) ∑(yx – Mittelwert)² = ∑ (ŷx – Mittelwert)² + ∑ (yx – ŷx)² Woraus sich nun die beiden relevanten Größen des sog. Bestimmtheitsmaßes errechnen lassen: Bestimmtheitsmaß R² = Erklärte Streuung/Gesamtstreuung R² = ∑ (ŷx – Mittelwert)² / ∑(yx – Mittelwert)² oder R² = 1- nicht erklärte Streuung/ Gesamtstreuung Der sog. Korrelationskoeffizient r ist „einfach“ die Wurzel aus R²: r = √ R²

Einzelwerte für Variable B Einzelwerte für Variable A Kein Zusammenhang zwischen A und B

Einzelwerte für Variable B Einzelwerte für Variable A Ein starker positiver Zusammenhang zwischen A und B

Einzelwerte für Variable B Einzelwerte für Variable A Ein starker negativer Zusammenhang zwischen A und B

Positiver korrelativer Zusammenhang: „Je mehr, desto mehr“ Negativer korrelativer Zusammenhang: „Je mehr, desto weniger“

Ein einfaches Rechenbeispiel: Der Scatterplot dazu sieht wie folgt aus: Die Berechnungen von R und R² ergeben:

A A A Böse Falle Null: Missing Value:Für eine Personliegen keine Angaben zuder Leistung in Klasse B vor A A Leistungen in Klasse B A A A A A A A 0 Leistungen in Klasse A

Beachten Sie den Korrelationsquotienten!

Was ist hier zu tun? Wie so oft gibt es mehrere Möglichkeiten: • Die Werte für einen missing value ausfiltern (die Null ausfiltern) • Die Werte für einen missing value unter „Variablenansicht“ in der Dialogbox „Fehlende Werte“ eintragen. Das Programm verwendet dann bei Berechnungen die dort eingetragenen Werte nicht.

Dieses Verfahren eignet sich jedoch nicht, wenn für jede Variable etwa nur Ja oder Nein Werte vorliegen, wie bspw. für die Frage nach dem Wohnort Stadt/Land und dem Geschlecht Junge/Mädchen. Will man also der Frage nachgehen, ob sich hinsichtlich des Wohnortes Stadt/Land Jungen von Mädchen unterscheiden, kann als ein mögliches Verfahren zur Prüfung dieser Frage die Kreuztabellierung genutzt werden. Wie der Name bereits verrät, werden in einer Tabelle „über Kreuz“ die Anteile der Mädchen in Stadt und auf dem Land dem Anteil der Jungen gegenübergestellt. Wichtig ist dabei der Vergleich zwischen den in dieser Tabelle ausgewiesenen erwarteten und den realen Werten. Dazu ein einfaches Beispiel: Insgesamt wären 100 Jugendliche befragt worden, ob sie auf dem Land oder in der Stadt wohnen. Nehmen wir an, von den Befragten wären genau 50 Jungen und 50 Mädchen gewesen. Dann könnte sich bspw. das folgende Bild ergeben: Wichtiger Hinweis: Dies hier sind nur sehr, sehr einfache Erläuterungen und Erklärungen! Bitte nutzen Sie weiterführende Literatur wie bspw.: Backhaus, Erichson, Plinke & Weiber (2003) Multivariate Analysemethoden. Berlin, Heidelberg, New York, Hongkong, London, Mailand, Paris, Tokio: Springer

Im linken Ergebnis zeigt sich die Annahme der Gleichverteilung; es gäbe keinen Unterschied, gleich viel Mädchen und Jungen leben in der Stadt und auf dem Land. Anders das Ergebnis auf der rechten Seite. In diesem Fall zeigt sich deutlich, dass mehr Mädchen auf dem Land umgekehrt mehr Jungen in der Stadt wohnen. Die Kreuztabelle fügt die Art dieser beiden Darstellungen zusammen und erstellt ein Bild über die Verteilung, wie sie unter der Bedingung „Gleichverteilung“ zu erwarten Wäre, dem sie die tatsächlich vorliegende Verteilung gegenüber stellt. Dabei werden unterschiedliche Gruppenaufteilungen (nicht wie hier gleiche Anteile J/M, Stadt/Land) rechnerisch angepasst.

Im Folgenden werden die Bearbeitungsschritte mit SPSS zum Verfahren „Kreuztabelle“ erläutert. Dazu wird SPSS gestartet, und eine Datei aufgerufen. Es erscheint dann diese Oberfläche. Jetzt soll die Frage geprüft werden, ob die Schulformen gleich stark von Jungen und Mädchen besucht werden.

Dazu wird in der obersten Zeile unter „Analysieren“ der Unterpunkt „Deskriptive Statistiken“ und dort der Unterpunkt „Kreuztabellen ..“ aufgerufen: Danach erscheint folgende Maske:

Jetzt wird unter „Zeilen“ die Variable „Geschlecht“ und unter „Spalten“ die Variable „Besuchte Schule“ markiert. Wichtig ist jetzt der Aufruf des Unterprogramms „Zellen“, wo zumindest unter „Häufigkeiten“ „Beobachtet“ und „Erwartet“ angeklickt werden muss. (andere Optionen ruhig einmal ausprobieren, bspw. die Möglichkeit, Prozentwerte!) Alles auf „Weiter“ bzw. „OK“ und es erscheint das folgende Resultat:

Es zeigt sich zunächst, dass insgesamt 126 SchülerInnen befragt wurden. Davon waren 77 Mädchen und 49 Jungen (was das Programm rechnerisch „ausgleicht“). Bezogen auf die Grundschule und die Realschule liegen die erwarteten Werte in etwa in der Größenordnung der (realisierten) Anzahl. Im Gymnasium und der Realschule trifft dies nicht zu. Im Gymnasium sind mehr Mädchen als erwartet; in der Gesamtschule mehr Jungen als erwartet. Doch was kann man machen, wenn numerische Werte vorliegen, die, wie bspw. bei der Körpergröße, nicht einfach in groß und klein unterteilt werden können? Dafür ist folgendes Verfahren möglich (es gibt weitere in SPSS!): Man generiert eine neue Variable, die die Ursprungswerte in zwei (oder mehr) Bereiche unterteilt. Und zwar wie folgt:

Zunächst ist es immer richtig, sich die Verteilung der Werte graphisch anzuschauen! Dazu wird unter „Graphiken“ der Unterpunkt „Balken“ gewählt, und dort „Einfach“ und „Auswertung über Kategorien einer Variable“ angeklickt. Es erscheint das folgende Fenster (rechts): In die Rubrik „Kategorienachse“ wird der zu betrachtende Wert eingefügt und „OK“ gegeben. Das Resultat ist links zu sehen.

Die Werte liegen zwischen 1 und 25,67 und es scheint zulässig, nach der Mitte zu suchen, um die Werte in zwei Bereich zu unterteilen. Anders wäre dies, wenn bspw. so eine Verteilung vorliegen würde: Hier würde die Suche einer Mitte die erkennbare Gruppierung in drei Bereiche zerstören. Doch zurück zu dem zuvor gewählten Beispiel „Gedächtnisspanne“: Hier errechnen wir als Grenze zwischen „wenig“ und „viel“ den Median. Dies geht ganz einfach: Unter dem Bereich „Analysieren“ findet sich der Unterpunkt „Deskriptive Statistik“, darunter der Unterpunkt „Häufigkeiten“. Dort wird die entsprechende Variable gewählt und unter „Statistik“, „Lagemaße“ der „Median“ angeklickt. Alles auf „OK“ und der Wert erscheint.

Im vorliegenden Fall hat der Median den Wert 14,00. Jetzt wird unter „Transformieren“, der Unterpunkt „Umkodieren“ und weiter „In andere Variable“ gewählt. Es erscheint dann das folgende Menü: Dort wird zunächst die zu unterteilende Variable angeklickt („s_score“), so dass sie in das mittlere Fenster wandert. Jetzt ist es wichtig, unter „Ausgabevariable“ den Namen der neuen Variable festzulegen. Vorschlag: „score_groß_klein“. Also eingeben, auf „Zuweisen“ klicken (!) und dann die Taste „Alte und neue Werte“ anklicken. Dann erscheint folgendes Menü:

Hier müssen nun unter „Bereich“ in dem gewählten Beispiel einmal 0 bis 14,00 eingegeben werden, danach auf der rechten Seite unter „Wert“ eine 1 und dann muss „Hinzufügen“ angeklickt werden, erst dann erscheint die Zuweisung in der Rubrik „Alt Neu“! Als nächstes wird wie dargestellt der Bereich 14,01 bis 100 (ist egal, wir wissen, der größte Wert war nur 25,47) und diesem Bereich der neue Wert 2 gegeben. Wichtig ist zu behalten: 1 ist der „kleine Wertebereich“, 2 der „große Wertebereich“. Auf „Weiter“ und „OK“ gedrückt, und die neue Variable erscheint ganz links (!) als neue Variable in der Liste. Damit haben wir aus eine numerischen eine kategoriale Variable „gemacht“ und können nun weiter mit Kreuztabellen arbeiten. Toll! Oder? So wie gezeigt können Werte natürlich auch in drei oder vier Bereiche unterteilt werden.

Um bei metrischen numerischen Daten einen Zusammenhang zu prüfen, hilft die oben erläuterte Korrelationsanalyse. Wichtig nochmals: der Zusammenhang muss linear sein, sonst entstehen unsinnige Ergebnisse. Die folgenden Abbildungen sollen in Ergänzung der schon gegebenen Erläuterungen dieses Problem ver- anschaulichen (es sei erwähnt, dass es Tests gibt, die die Zulässigkeit prüfen) . Nehmen wir an, die Daten würden in etwa wie unter A verteilt vorliegen, dann würde die Korrelationsanalyse eine Regressionsgerade berechnen, in etwa so wie durch die gestrichelte Linie dargestellt. Da die Berechnungen „dumm und stumpf“ erfolgen, käme ein Zusammenhangswert heraus, der die Verhältnisse aber völlig falsch darstellt. Genauso würde es sich im Fall B verhalten. Erst unter der Bedingung C wäre die Berechnung des Korrelationskoeffizienten zulässig und vernünftig, bspw. um den Grad des Zusammenhangs zwischen verschiedenen Faktoren zu prüfen, um Aussagen über einen stärkeren oder schwächeren Zusammenhang treffen zu können (Sporttreiben hat einen größeren Einfluss auf Mathe als auf Deutsch) etc. A B C

Zur Praxis mit Hilfe von SPSS: Zunächst wird also ein Streudiagramm erstellt. Das geht so: Unter „Graphiken“ das Unterprogramm „Streu- Punktdiagramm“ anklicken. Dann „Einfaches Streudiagramm“ und „Definieren“. X und Y-Achse definieren, fertig. Interessant ist die Option „Markierungen festlegen durch“: Wird hier, wie gezeigt, „Geschlecht“ eingetragen, lässt schon grob sehen, wie Jungen/Mädchen in der Menge verteilt sind!

Um jetzt für den Fall „Deutschnote/Mathenote“ den Zusammenhang zu berechnen unter „Korrelation“, dann „Bivariat“, die Variablen „Deutschnote“ und „Mathenote“ anklicken, alles auf „OK“ und das folgende Ergebnis kommt (in dem hier gewählten Beispiel). Die Korrelation beträgt 0,505. Um jetzt bspw. zu prüfen, ob dieser Zusammenhang bei Mädchen größer ist als bei Jungen wird abschließend der letzte hier vorzustellende Schritt erläutert: das Unterteilen eines Datensatzes in Teilmengen (siehe nächste Folie).

Dazu wird unter „Daten“ das Unterprogramm „Fälle auswählen“ angeklickt. Dann erscheint diese Oberfläche: Jetzt gibt es, wie zu sehen ist, mehrere Möglichkeiten. Hier wird eine vorgestellt: „Falls Bedingung zutrifft“. Also auf diese Schaltfläche Klicken und eine Untermenü öffnet sich mit weiteren Möglichkeiten. Doch zuvor ein sehr wichtiger Hinweis. unter „Ausgabe“ kann festgelegt werden, ob der geänderte Datensatz bspw. „gefiltert“ oder „gelöscht“ werden soll: Vorsicht vor „löschen“, die Daten sind dann weg!! Tipp: Vollständige Daten aufrufen, dann, wie gleich zu zeigen, nur die Mädchen auswählen, „löschen“ setzen, dann aber die Datei unter einem neuen Namen speichern (!!!), etwa so „XYZ_mädchen“. Entsprechend mit den Jungen oder was auch immer. Wenn Sie „filtern“ wählen dann nicht vergessen: Bevor Sie eine neue Gruppe festlegen, wieder auf „Alle Fälle“ klicken!

Doch weiter im Text. Unter „Falls“ können Sie jetzt bspw. wie gezeigt festlegen, dass nur die Daten verwendet werden, bei denen unter „gender“ mit einer „1“ eingegeben wurde. Wenn Sie nicht mehr wissen sollten, was „1“ bedeutet: Variablenansicht, Wertelabels nachschauen. Wenn Sie Wertebereiche festlegen wollen geht auch dies ganz einfach etwa so: In diesem Fall werden alle Fälle gewählt, bei denen die Werte Alter kleiner/gleich (<=) 8 und (&) größer als (>) 4 sind.

Wenn Sie sehr genau den bisherigen Text studiert haben ist Ihnen sicher aufgefallen, dass bislang nur die Werte der erfolgreichen Durchführungen bei jeder untersuchten Gedächtnisspanne im Datensatz enthalten sind. Weiter oben habe ich aber schon kurz einen Wert „Gesamtmaß Gedächtnisspanne“ benutzt. Wie kommt ein solcher Wert zustande, was sagt er aus, wie lässt er sich, wie lassen sich andere Werte herstellen? Im Prinzip müssen für einen Gesamtwert irgendwie die Werte aller Einzelspannen zusammengefügt werden. Um dies zu tun bietet SPSS unter „Transformieren“ das Unterprogramm „Berechnen“. Beim Anklicken zeigt sich die folgende Oberfläche: Unter „Zielvariable“ wird der Name der neu zu berechnenden Variablen festgelegt.

Im Feld „Numerischer Ausdruck“ kann jetzt die Formel eingegeben werden, die den neuen Wert berechnen soll. Ein ganz einfaches (aber dummes) Beispiel dafür könnte so aussehen. Sie wollten eine „Gesamtnote“ berechnen, und würden dazu eingeben „Deutschnote + Mathenote + Musiknote + Sportnote“. Wenn Sie schon jetzt „OK“ geben, erhalten Sie eine neue Variable „Gesamtnote“ (wird immer ganz rechts an den Datensatz angehängt), in der für jede Person, sprich für jede Zeile, die Werte „Deutsch, Mathe, Musik und Sport“ aufaddiert enthalten sind. Jetzt wollen Sie ja aber eine Gesamtnote haben, die im Spektrum „1 bis 6“ liegt. Also müssen Sie das Ganze noch durch 4 teilen, weil Sie ja 4 Werte aufaddiert haben. Das geht, wie immer, auf verschiedenen Wegen. Der einfachste ist, in das Feld „Numerischer Ausdruck“, anders als zuvor, folgende Anweisung zu schreiben: (Anführungszeichen weglassen!!) „(Deutschnote + Mathenote + Musiknote + Sportnote)/4“. Ein anderer Weg: Sie gehen wie oben vor, und rufen, wenn diese neue Variable berechnet ist, noch mal „Berechnen“ auf, geben jetzt als Zielvariable einen neuen Namen oder den alten an (dann werden die bestehenden Werte überschrieben) und geben in die Befehlszeile ein: „Gesamtnote/4“, wieder auf „OK“ und fertig. Im Hilfeprogramm finden Sie eine Reihe von weiteren Beispielen. Auf der folgenden Seite sind jetzt die Werte angegeben und erklärt, die ich Ihnen, wenn ich alle Datensätze habe, zusätzlich berechne (können Sie natürlich auch gerne selbst ausprobieren) und an den Gesamtdatensatz anhängen werde. Bei Fragen: Anrufen, „Anmailen“, Vorbeischauen.

Erläuterung der vier neu errechneten und eingefügten Werte: • s_score • Diesen Wert habe ich berechnet, um ein Gesamtmaß für die erreichten • Gedächtnisspannenwerte zu erhalten. Dazu habe ich den Wert für die Spanne 1 • durch 3 geteilt und mit 1 multiplizierte, den Wert für die Spanne 2 durch 3 geteilt • und mit 2 multipliziert, den Wert für die Spanne 3 durch 3 geteilt und mit 3 • multipliziert etc.: • ((spanne_01 / 3) * 1) + ((spanne_02 / 3) * 2) + ((spanne_03 / 3) * 3) + ((spanne_04 / 3) * 4) + • ((spanne_05 / 3) * 5) + ((spanne_06 / 3) * 6) + ((spanne_07 / 3) * 7) + ((spanne_08 / 3) * 8) • So ergibt sich ein Wertebereich für den s_score, der zwischen 0,3 und 36 liegen kann. • sb_score • Hier habe ich den Median der s_score Werte genommen, um zwei Bereiche zu • erhalten: 1, wenn der s_score kleiner als der Median ist (kleiner Gedächt.-Spannen • Wert) und 2, wenn er größer Median (im Label schreibe ich den Medianwert auf) ist. • day_score • Ist ganz einfach die Tageszeit in Minuten: Std. mal 60 + Minuten. • t-score • Time, hier als Gesamtwert für das Üben eines Instrumentes: Wert Dauer mal Üben

Weitere ErläuterungenKreuztabelle Gender Note 1,00 2,00 1,00 2,00 1,00 2,00 1,00 2,00 1,00 3,00 1,00 2,00 1,00 3,00 1,00 2,00 2,00 5,00 2,00 5,00

Wie berechnet SPSS die erwarteten Werte in einer Kreuztabelle? Dazu wählen Sie bitte die Datei „Titanic.sav“ aus. Die Datei enthält die Daten von2201 Passagieren, die sich an Bord der Titanic befanden. Die zu klärende Frage lautet hier: War die Überlebenswahrscheinlichkeit nach dem Untergang des Schiffesvon der Klasse abhängig? Dazu erstellen wir wie oben beschrieben eine Kreuztabelle mit „survival“ in der Spalteund „class“ in den Zeilen, „beobachtet“ und „erwartet“ werden aktiviert. Es ergibt sichfolgende Tabelle:

Berechnet werden die Zahlen „Erwartet“ wie folgt: In der ersten Zeile wurden 203 Gerettete beobachtet. Die Gesamtzahl der Passagierein der ersten Klasse betrug 325. Ingesamt wurden 711 Personen gerettet, an Bordwaren insgesamt 2201 Personen. Die Rechnung lautet jetzt:711 mal 325 = 231075, geteilt durch 2201 macht 104,98 (~ 105) Sie können diese Berechnung selbstverständlich auch als Dreisatz formulieren:von 2201 (Gesamt) überlebten 711von 325 (erste Klasse) überlebten X

Jetzt können Sie die Anzahl der (beobachteten) Anzahl von Personen mit der „Erwarteten Anzahl“ vergleichen. In der ersten Klasse sehen Sie dabei, dass 203 Personen gerettet wurden, erwartet wurden jedoch „nur“ 105. Es sind somit deutlichmehr Personen der ersten Klasse gerettet worden, als zu erwarten gewesen wäre.Vergleichen Sie dies mit den Passagieren der dritten Klasse: Dort wurden 178 Passagiere gerettet, während ~ 286 zu erwarten gewesen wären. Kurz: die Über-lebenswahrscheinlichkeit in der ersten Klasse war deutlich größer als die in der“preiswerteren” dritten Klasse.

Wenn Sie jetzt wissen möchten, welche Personengruppe die höchste Überlebens-wahrscheinlichkeit an Bord hatte, dann bietet die Kreuztabelle eine sehr schöne,einfache Form, um diese Frage zu beantworten. Dazu müssen Sie wie zuvor in derDialogbox „Kreuztabelle“ wieder „class“ in die Zeile und „survival“ in die Spaltensetzen. „Age“ setzen Sie jetzt in die „Schicht 1 von 2“ und drücken „Weiter“. Jetzt verschieben Sie „gender“ in die „zweite Schicht“.

Zusätzlich müssen Sie jetzt noch im Feld „Zellen“ „Häufigkeiten“ „Beobachtet“ und„Erwartet“, sowie unter „Prozentwerte“ alle drei Rubriken „Zeilenweise“, „Spaltenweise“und „Gesamt“ setzen (siehe untere Abbildung). Wenn Sie jetzt auf „OK“ gehen, sehen Sie das auf der nächsten Seite in zweiSpalten aufgeteiltes Resultat. Sie werden schnell erkennen können, dass die Kinder inder ersten und zweiten Klasse zu 100% überlebten, die Frauen in der ersten Klasse zu 97,2% und die Männer der zweiten Klasse mit 8,3% die schlechteste Überlebens-chance hatten.

Der „Chi-Quadrat-Test“ zur Überprüfung der Unabhängigkeit von zwei Variablen Mit diesem Test kann die Unabhängigkeit von zwei Variablen, und damit indirekt auchdie Größe des Zusammenhangs zwischen zwei Variablen geprüft werden.Von Bedeutung ist dieser Test bspw. wenn der Frage nachgegangen werden soll,ob – um bei dem Beispiel der Titanic zu bleiben – das Alter oder das Geschlecht eine größere Rolle bei der Frage des Überlebens gespielt hat. Dazu rufen wir wieder die Dialogbox „Kreuztabelle“ auf und setzen wieder, wie auf der nächsten Folie ersichtlich, „class“ in die Zeile und „survival“ in die Spalte. Jetzt klicken wir das Fenster „Statistik“ an und erhalten die folgende Dialogbox. („Wert beobachtet“ – „Wert erwartet“)2 ∑ Chi-Quadrat = „Wert erwartet“

Hier wird jetzt das Feld „“Chi-Quadrat“ aktiviert und schließlich „OK“ gegeben.

Als Ergebnis erhalten wir die schon bekannte Kreuztabelle mit den beobachteten underwarteten Werte und eine Tabelle, die neben anderen Werten den des Chi-Quadrat-Tests zeigt. Bevor die Bedeutung dieses Wertes erläutert wird, berechnen Sie bitte den Chi-Quadrat-Test für die Variablen „Überleben“ und „Alter“

Eine (sehr) einfache , erste Anleitung zur Datenauswertung bzw. Hypothesenprüfung (bitte unbedingt durch Hilfefunktion