490 likes | 747 Views
STATISIK. LV Nr.: 0028 SS 2005 18. Mai 2005. Zweidimensionale Merkmale. Frage: Wie lässt sich der Zusammenhang bzw. die Abhängigkeit zw. zwei Merkmalen messen? Wie stark ist der Zusammenhang bzw. die Abhängigkeit? Antwort durch Korrelationsrechnung.
E N D
STATISIK LV Nr.: 0028 SS 2005 18. Mai 2005
Zweidimensionale Merkmale • Frage: Wie lässt sich der Zusammenhang bzw. die Abhängigkeit zw. zwei Merkmalen messen? • Wie stark ist der Zusammenhang bzw. die Abhängigkeit? Antwort durch Korrelationsrechnung. • Lässt sich der Zusammenhang in einer bestimmten Form darstellen? Antwort durch Regressionsrechnung.
Zweidimensionale Merkmale • n Untersuchungseinheiten, 2 Merkmale X und Y, Ausprägungen des Merkmals X a1,…,al und Ausprägungen des Merkmals Y b1,…,bm. • 2-dimensionales Merkmal (X,Y) mit Ausprägungen (aj,bk), mit absoluten Häufigkeiten hjk und relativen Häufigkeiten fjk=1/n·hjk
Kontingenztafel • Häufigkeitsverteilung von (X,Y) wird durch Kontingenztafel dargestellt.
Kontingenztafel • Bsp. Geschlecht (X) Rauchverhalten (Y): absolute und relative Häufigkeiten von (X,Y).
Kontingenztafel • Absolute Randhäufigkeiten • von aj für j=1,…,l und bk für k=1,...,m: • Relative Randhäufigkeiten • von aj für j=1,…,l und bk für k=1,…,m: • Randhäufigkeiten ergeben die Häufigkeits-verteilung des Merkmals X bzw.Y (Randverteilung).
Kontingenztafel • Kontingenztafel absoluten Häufigkeiten und Randhäufigkeiten
Kontingenztafel • Kontingenztafel relative Häufigkeiten und Randhäufigkeiten
Kontingenztafel Es gilt: • Relative Randhäufigkeit = 1 / n · absolute Randhäufigkeit • Summe der absoluten Randhäufigkeiten = n • Summe der relativen Randhäufigkeiten = 1
Kontingenztafel • Bsp. Geschlecht (X) Rauchverhalten (Y): absolute und relative Häufigkeiten und Randhäufigkeiten von (X,Y).
Kontingenztafel • Bsp. Geschlecht (X) Rauchverhalten (Y): • Zeilenprozent:
Kontingenztafel • Bsp. Geschlecht (X) Rauchverhalten (Y): • Spaltenprozent:
Korrelationskoeffizient • Bravais-Pearson Korrelationskoeffizient rXY • 2-dimensionales metrisch skaliertes Merkmal (X,Y) mit Ausprägungen (aj,bk) und Häufigkeiten hjk für j=1,…,l und k=1,…,m. • Maß für den Zusammenhang zw. X und Y:
Korrelationskoeffizient • rXY liegt immer im Intervall [-1,1] • Extremfälle: -1 negativer linearer Zusammenhang rXY = 0 kein linearer Zusammenhang 1 positiver linearer Zusammenhang • Interpretation: • rXY < 0 d.h. große Werte von X treten mit kleinen Werten von Y auf • rXY > 0 d.h. große Werte von X treten mit großen Werten von Y auf
Korrelationskoeffizient • Probleme: • Scheinkorrelation: X und Y hängen von einem dritten Merkmal Z ab • Bsp. Gefahr eines Waldbrandes (X) und schlechter Kornertrag (Y) hängen von der Stärke der Sonneneinstrahlung (Z) ab. • Nonsenskorrelation: sachlogischer Zusammenhang zw. X und Y • Bsp. Korrelation zw. Anzahl der Störche und der Anzahl der Geburten in einem Land • Nichtlinearer Zusammenhang: rXY misst nur einen linearer Zusammenhang
Korrelationskoeffizient • Bsp. Körpergröße und Gewicht: r = 0,76 • Positiver linearer Zusammenhang zw. Körpergröße und Gewicht.
Korrelation • Fechnersche Korrelationskoeffizient (für 2 metrisch skalierte Merkmale X und Y): rF • Basiert auf Vorzeichen der transformierten Paare x* und y* 1 x* und y* gleiches Vorzeichen od. beide 0 vi = ½ genau einer der Werte x* bzw. y* = 0 0 sonst
Korrelation • Fechnersche Korrelationskoeffizient: • Werte im Intervalle [-1,1] • +1 nicht nur bei positivem linearen Zusammenhang, sonder auch wenn gilt: oder
Korrelation • Bsp. Hennen, Körpergewicht, Legeleistung
Korrelation • Rangkorrelationen für ordinal skalierte Merkmale: • Verwendung von Rangzahlen: Merkmal Z, Ausprägungen z1,…,zn, der Größe nach ordnen (vom größten zum kleinsten Wert) z(1),…,z(n) und nummerieren. • Rangzahl: R(z(i)) = i für i=1,…,n • Tritt ein Ausprägung mehrmals auf (Auftreten von Bindungen), dann Rang = arithm. Mittel der Ränge, die sie einnehmen. • Bsp: z(1)=8, z(2)=5, z(3)=5, z(4)=2, Ränge: R(z(1))=1, R(z(2))=2,5, R(z(3))=2,5, R(z(4))=4
Korrelation • Spearmansche Rangkorrelationskoeffizient rS • Entspricht dem Bravais-Pearson Koeffizienten der Rangzahlen • Wert +1 schon bei monoton wachsenden Beobachtungen, d.h. es gilt für alle (xi,yi), (xj,yj): mit xi < xj ist auch yi < yj
Korrelation • Bsp. Klausur- und Übungspunkte • Einfachere Formel für den Spearman‘schen Korrelationskoeffizienten (falls alle xi und yi verschieden sind (und di=R(xi)–R(yi)):
Korrelation • Bsp. Maturanoten Mathe, Deutsch, Englisch
Korrelation • Yulesche Assoziationskoeffizient für eine Vierfeldertafel • (X,Y) nominal skaliert • Häufigkeitsverteilung von (X,Y) • Es gilt: -1 ≤ AXY ≤ +1; falls ein hij=0, so gilt: |AXY|=1; Vorzeichen nur in Verbindung Vierfeldertafel interpretierbar
Korrelation • Bsp. Geschlecht – Raucher/Nichtraucher • Leicht positiver Zusammenhang zw. Merkmalsausprägungen „w“ und „R“
Korrelation • Bsp. Geschlecht – Raucher/Nichtraucher • Leicht negativer Zusammenhang zw. Merkmalsausprägungen „m“ und „R“
Wahrscheinlichkeitsrechung • Betrachte Ereignisse die nicht deterministisch (vorherbestimmbar) sind, Ereignisse mit Zufallscharakter. • Bsp. Werfen eines idealen Würfels, Werfen einer fairen Münze, … • Oder Ereignisse, die von so vielen Einflussfaktoren abhängen, dass das Ergebnis nicht sicher bestimmt werden kann.
Wahrscheinlichkeitsrechung Grundbegriffe: • Zufallsexperiment: • Vorgang nach einer bestimmten Vorschrift ausgeführt, beliebig oft wiederholbar, Ergebnis hängt vom Zufall ab, bei mehrmaligen Durchführung des Experiments beeinflussen die Ergebnisse einander nicht – unabhängig voneinander. (z.B. Münzwurf, Werfen eines Würfels, …)
Wahrscheinlichkeitsrechung • Elementarereignisse (Realisationen) • Zufallsexperiment: Reihe aller möglichen elementarer Ereignisse {e1},…,{en} • Ereignisraum S: • Menge der Elementarereignisse S={e1,…,en} • Ereignis: • Jede beliebige Teilmenge des Ereignisraumes (setzt sich aus einem od. mehreren Elementarereignissen zusammen)
Wahrscheinlichkeitsrechung • Vereinigung • Vereinigung von 2 Ereignissen A und B: AUB Menge aller Elementarereignisse, die zu A oder B gehören • Durchschnitt • Durchschnitt von 2 Ereignissen A und B: A∩B Menge aller Elementarereignisse, die zu A und B gehören • Disjunkte Ereignisse • 2 Ereignisse A und B schließen einander aus, A∩B=Ø (Ø unmögliches Ereignis) • Komplementärereignis • Menge aller Elementarereignisse des Ereignisraumes S, die nicht in Ereignis A enthalten sind
Wahrscheinlichkeitsrechung • Wahrscheinlichkeit ist ein Maß zur Quantifizierung der Sicherheit bzw. Unsicherheit des Eintretens eines bestimmten Ereignisses im Rahmen eines Zufallsexperiments.
Wahrscheinlichkeitsrechung • Klassischer Wahrscheinlichkeitsbegriff: • Bsp. Urne mit 10 Kugeln (8 rot, 2 schwarz) • Gesucht: Wahrscheinlichkeit, dass eine zufällig gezogene Kugel rot ist (Ereignis A) • Ereignisraum 10 mögl. Elementarereignisse, 8 günstige Fälle • W(A) = 8 / 10 = 0,8
Wahrscheinlichkeitsrechung • Statistischer Wahrscheinlichkeitsbegriff: • Grenzwert der relativen Häufigkeiten des Auftretens von A
Wahrscheinlichkeitsrechung • Subjektiver Wahrscheinlichkeitsbegriff: • Ereignissen werden „Wettchancen“ zugeordnet. Quote für A ist a:b, dann ergibt sich die Wahrscheinlichkeiten
Wahrscheinlichkeitsrechung • Axiomatischer Wahrscheinlichkeitsbegriff: • Definition von mathematischen Eigenschaften 1. 0 ≤ W(A) ≤ 1 2. W(S) = 1 3. A und B disjunkt: W(A U B) = W(A) + W(B)
Zufallsvariable • Zufallsvariable: Variable deren Wert vom Zufall abhängt (z.B. X, Y, Z) • Bsp. Zufallsexperiment: 2-maliges Werfen einer Münze. Frage: Wie oft erscheint „Zahl“? Mögliche Werte: 0, 1, 2. Variable „Anzahl Zahl“ hängt vom Zufall ab – Zufallsvariable. • Realisation (Ausprägung): Wert, den eine Zufallsvariable X annimmt (z.B. x, y, z). • Bsp. 2-maliges Werfen einer Münze, ZV X „Anzahl Zahl“, Ausprägungen: x1=0, x2=1, x3=2.
Zufallsvariable • Zufallsvariable: Funktion, die jedem Elementarereignis eine bestimmt reelle Zahl zuordnet, z.B. X(ej)=xi • Definitionsbereich einer ZV: Ereignisraum S des zugrundeliegenden Zufallsexperiments. • Wertebereich einer ZV: Menge der reellen Zahlen.
Zufallsvariable • Diskrete Zufallsvariable: ZV mit endlich vielen oder abzählbar unendlich vielen Ausprägungen • Stetige Zufallsvariable: können (zumindest in einem bestimmten Bereich der reellen Zahlen) jeden beliebigen Zahlenwert annehmen.
Wahrscheinlichkeit • Diskrete Zufallsvariable: • Wahrscheinlichkeit, mit der eine diskrete ZV X eine spezielle Ausprägung xi annimmt, W(X=xi): Summe der Wahrscheinlichkeiten derjenigen Elementarereignisse ej, denen Ausprägung xi zugeordnet ist:
Wahrscheinlichkeitsfunktion • Wahrscheinlichkeitsfunktion einer diskreten ZV: Funktion f(xi), die für jede Ausprägung der ZV (unterschiedliche Ausprägungen xi einer ZV X) die Wahrscheinlichkeit ihres Auftretens angibt: f(xi) = W(X=xi) • Eigenschaften: • f(xi) ≥ 0 i=1,2,… • Σif(xi) = 1
Verteilungsfunktion • Verteilungsfunktion einer diskreten ZV: Funktion F(x), die die Wahrscheinlichkeit dafür angibt, dass die ZV X höchstens den Wert x annimmt. F(x) = W(X ≤ x) • Es gilt: • Treppenfunktion
Verteilungsfunktion • Verteilungsfunktion einer stetigen ZV (kann in einem bestimmten Intervall jeden beliebigen Wert annehmen): Funktion F(x), die die Wahrscheinlichkeit dafür angibt, dass die ZV X höchstens den Wert x annimmt. F(x) = W(X ≤ x) • Stetige Funktion
Verteilungsfunktion • Eigenschaften einer stetigen Vt-Funktion: 1. 0 ≤ F(x) ≤ 1 2. F(x) ist monoton wachsend (d.h. für x1 < x2 gilt F(x1) ≤ F(x2) 3. lim x→-∞ F(x) = 0 4. lim x→∞ F(x) = 1 5. F(x) ist überall stetig
Wahrscheinlichkeitsdichte • Wahrscheinlichkeitsdichte (Dichtefunktion) f(x) einer stetigen ZV: Ableitung der Verteilungsfunktion. • Es gilt:
Wahrscheinlichkeitsdichte • Eigenschaften: 1. f(x) ≥ 0 2. 3. 4. W(X=x) = 0 5. W(a ≤ X ≤ b) = W(a < X < b) 6. W(X ≤ a) = F(a) W(X ≤ b) = F(b) W(a ≤ X ≤ b) = F(b) – F(a)