280 likes | 418 Views
Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare con altre distribuzioni (gruppi differenti della popolazione o del campione esaminato).
E N D
Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare con altre distribuzioni (gruppi differenti della popolazione o del campione esaminato). Tali comparazioni sono alla base delle ipotesi circa l’esistenza di una relazione fra due variabili (RELAZIONI BIVARIATE). Le tabelle che organizzano queste comparazioni sono chiamate “TABELLE A DOPPIA ENTRATA” (o cross-tabulation).
Alcune regole per le tabelle 2X2 • Nella lettura di una tabella 2X2 si parte sempre dall’esterno per andare verso l’interno (cd. “principio del carciofo”) • vengono indicate le variabili che sono incrociate: • - la variabile indipendente X è scritta in alto, in colonna • - la variabile dipendente Y è riportata in riga • per ciascuna variabile sono specificate le modalità • ciascuna cella della tabella contiene le frequenze, cioè il numero dei casi che possiedono le diverse modalità considerate (le frequenze possono essere espresse in termini assoluti o relativi percentuali) • Quando le percentuali sono calcolate nella direzione della variabile indipendente X - per colonna - si compara per riga; viceversa, quando le percentuali sono calcolate nella direzione della variabile dipendente Y - per riga - si compara per colonna
Peculiarità delle tavole di contingenza • Parsimoniosità. La tabella riporta solo le percentuali che servono all’analisi • Totali. Ogni riga o colonna percentuale finisce col totale 100 consentendo così al lettore di capire in che direzione sono state calcolate le percentuali • Base delle percentuali. Sotto al totale va riportata, in genere tra parentesi, la base della percentuale (N). Infatti un conto è dire che i giovani sono praticanti per il 25% su un campione di 100 individui ed un altro dirlo relativamente ad un campione di 1.000 individui. Si ritiene imprudente calcolare e commentare percentuali su basi inferiori a 50 casi
Peculiarità delle tavole di contingenza • Cifre decimali, decimale zero, arrotondamenti, quadratura. Si veda l’analisi monovariata • Intestazione. Le tabelle debbono essere sempre intestate (titolo) ed autoesplicative. Per esempio la frase “Intensità della partecipazione politica secondo il partito votato” è più chiara chiara rispetto a “Relazione fra partecipazione politica e preferenza partitica” • Somma di percentuali. La somma delle percentuali è legittima se appartengono alla medesima distribuzione, ma non lo è qualora si considerino due o più distribuzioni.
Leggere una tabella … • selezionare le modalità più significative e centrare su di queste l’analisi • una percentuale affinché sia degna di nota deve essere superiore ai 5 punti percentuali.
Leggere una tabella … • Un altro modo di lettura consiste nel calcolare la differenza di fra le due modalità di risposta oppure fra le risposte positive e negative. • Un’osservazione va fatta sulla forma della relazione: se al crescere di una variabile cresce anche l’altra si può dire che la relazione che si presenta agli occhi del ricercatore è monotonica o lineare. • La compattazione della tabella è importante in special modo quando la tabella presenta l’incrocio di più di due variabili
Come accertare l’esistenza di una effettiva relazione causale tra la variabile indipendente X e la variabile dipendente X ? • IPOTESI NULLA e TEST DEL CHI QUADRO • introduzione di una VARIABILE DI CONTROLLO
Esempio: relazione fra grado di interesse per la campagna presidenziale e voto frequenze osservate Grado di interesse per la campagna presidenziale Totale Non interessato Molto interessato Votato 58% 87% 72% (313) (452) (765) Non votato 42% 13% 28% (227) (68) (295) Totale 51% 49% 100% (540) (520) (1060) Fonte: Campbell, et al. (1964, tab. 4-3, p. 56), sono stati esclusi coloro che dichiarano di essere “abbastanza interessati”.
LOGICA DEL TEST DEL CHI QUADRO • Formulazione dell’ipotesi nulla, che assume l’assenza di relazione fra le le due variabili considerate. • Individuazione delle frequenze che si dovrebbero ottenere se l’ipotesi nulla fosse vera (frequenze “attese”). • Comparazione delle frequenze attese con quelle “osservate” empiricamente nel campione analizzato. • Valutazione della probabilità con cui la differenza tra frequenze “attese” e quelle “osservate” possa essere dovuta al caso.
Esempio: relazione fra grado di interesse per la campagna presidenziale e voto frequenze attese Grado di interesse per la campagna presidenziale Totale Non interessato Molto interessato 765x540 1060 765x520 1060 Votato 72% = 390 = 375 (765) Non votato 28% 295x540 1060 295x520 1060 = 150 = 145 (295) Totale 51% 49% 100% (540) (520) (1060) Fonte: Campbell, et al. (1964, tab. 4-3, p. 56), sono stati esclusi coloro che dichiarano di essere “abbastanza interessati”.
CONDIZIONI DEL TEST • che il campione sia estratto casualmente, cioè che ogni individuo abbia la stessa probabilità di essere estratto di ogni altro; • che le categorie o modalità di ciascuna delle due variabili siano mutuamente esclusive ed esaustive, per cui ciascun individuo o caso non può essere collocato che in una ed una sola cella; • che la maggioranza (più dell’80%) delle frequenze attese abbiano una frequenza superiore a 5 casi.
RELAZIONI TRIVARIATE Per esaminare in modo sistematico la relazione fra due variabili bisogna introdurre una terza variabile di controllo (detta ‘test factor’): ISTRUZIONE ETA’ TOLLERANZA
“tenere costante” la relazione • Scopo dell’elaborazione è determinare se la relazione fra la variabile indipendente X e la variabile dipendente Y sia dovuta o meno ad un terzo fattore Z (test factor). • Dire che la relazione fra X ed Y dipende da Z significa che se Z non si manifestasse, allora la relazione fra X e Y non esisterebbe. ES: “I giovani sono più tolleranti degli anziani perché hanno un maggiore livello di istruzione” significa che “Se i giovani non avessero un maggiore livello di istruzione degli anziani, non sarebbero più tolleranti”. Per accertare se il livello di istruzione esercita un tale effetto sulla relazione bivariata fra età e tolleranza, bisogna tenere sotto controllo, ovvero mantenere costante, la terza variabile addizionale così da specificarne l’eventuale influenza sulla relazione stessa. • Un modo per tenere costante il test factor è la classificazione in sottogruppi: si creano tanti sottogruppi quante sono le modalità della variabile di controllo e si esamina la relazione bivariata iniziale per ciascuno di tali sottogruppi. ES: compariamo il livello di tolleranza dei giovani con quello degli anziani, a parità di livello di istruzione.
Relazione spuria Consumo regolare di dolci (variabile dipendente Y) Stato civile (variabile indipendente X) ETA’ (variabile di controllo Z)
Consumo di dolci per stato civile, controllando per l’età
Perché dunque le persone sposate mangiano meno dolci delle persone non sposate ? Perché gli sposati sono, in percentuale, più anziani dei non sposati e le persone più anziane di solito mangiano meno dolci. • La relazione iniziale fra stato civile e consumo di dolci è quindi annullata, poiché dovuta alla variabile età e non allo stato civile: i non sposati consumano dolci più regolarmente degli sposati perché più giovani e non per non aver contratto matrimonio.
Relazione spuria o variabile interveniente ? VARIABILE INDIPENDENTE VARIABILE DIPENDENTE VARIABILE DI CONTROLLO VARIABILE INTERVENIENTE VARIABILE INDIPENDENTE VARIABILE DIPENDENTE
Relazione fra assenteismo dal lavoro e stato civile STATO CIVILE ASSENTEISMO ONERI CASALINGHI
Assenteismo dal lavoro per stato civile, controllando per quantità di lavoro domestico
Perché sul lavoro le donne sposate sono più assenteiste delle donne non sposate ?Perché le donne sposate hanno maggiori oneri casalinghi delle nubili e questa variabile influenza l’assenteismo. NB: non si può nemmeno dire, però, che il matrimonio di per sé non causi assenteismo: comparando infatti il rapporto tra numero di sposate e nubili con molti oneri casalinghi (5680/1104), con il rapporto tra sposate e nubili con ridotti oneri casalinghi (816/9126), si trova che la relazione si inverte: di fatto la maggioranza delle donne sposate ha elevati oneri casalinghi (88%), mentre fra le donne nubili solo il 10% ha elevati oneri domestici. • La relazione iniziale fra stato civile e assenteismo è quindi mediata e non annullata dalla variabile oneri casalinghi, che perciò diventa una variabile interveniente.
Relazione spuria o variabile interveniente ? Più elevato livello di assenteismo Matrimonio Maggiori oneri casalinghi Più elevato livello di assenteismo Maggiori oneri casalinghi Matrimonio
STATO CIVILE ETA’ CONSUMO DI DOLCI Compariamo le due relazioni esaminate: Esempio del consumo di dolci: (relazione spuria) Esempio dell’assenteismo: ONERI CASALINGHI MATRIMONIO ASSENTEISMO (relazione condizionale indiretta, con variabile interveniente )
Regole per distinguere relazioni spurie da relazioni condizionate da una variabile interveniente • Esaminare il numero di casi a fondo di ciascuna colonna: • quando il rapporto fra i totali di ciascun gruppo o modalità della variabile di controllo è uguale, ciò significa probabilmente che la relazione è spuria • quando il rapporto non è uguale, allora la variabile di controllo probabilmente interviene fra variabile indipendente e dipendente • Se la relazione tra variabile di controllo e variabile indipendente è reversibile- se cioè la direzione di causalità può essere invertita indifferentemente fra le due variabili -allora siamo in presenza di una relazione spuria. Altrimenti, se la freccia di causalità può solo andare dalla variabile indipendente a quella di controllo e non viceversa, è più difficile sostenere che la variabile di controllo possa influenzare quella indipendente (si tratterebbe in questo caso di variabile interveniente).