1 / 11

LABORATORIO DI ANALISI AVANZATA DEI DATI

LABORATORIO DI ANALISI AVANZATA DEI DATI. Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso. IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo sulla selezione del modello. Dati: v. file Dati_random.xls.

michon
Download Presentation

LABORATORIO DI ANALISI AVANZATA DEI DATI

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo sulla selezione del modello Dati: v. file Dati_random.xls

  2. Esempio sulla selezione automatica delle variabili nel modello di regressione multipla: file dati_random.xls • n = 200 osservazioni; Y: variabile dipendente; X1 – X20: variabili esplicative • Analisi preliminare (matrice dei diagrammi di dispersione; matrice di correlazione …): quale relazione ci si può aspettare? • Procedura backward di SPSS (con soglie di default) • Procedura forward di SPSS (con soglie di default) • Confronto tra le due procedure • Confronto con i risultati delle analisi preliminari: • sono state utili le procedure automatiche? • se ci sono differenze, quali sono i motivi?

  3. Esempio: scatterplotmatrix Il grafico sembra confermare l’assenza di struttura nei dati (tra Y e le esplicative, ma anche tra le diverse X)

  4. Esempio: procedura backward con “soglia out” = 0.10 (default SPSS) Al primo passo rimuove X4 Al secondo passo rimuove X5  (dettagli: v. output SPSS) Modello finale(passo 17): 4 variabili esplicative R2=0.079 R2adj=0.060 Con soglia out più bassa il modello si riduce un po’ (esce X10)

  5. Esempio: procedura forward con “soglia in” = 0.05 (default SPSS) Al primo passo inserisce X17 Al secondo passo si arresta  Modello finale 1 variabile esplicativa R2 = 0.025 R2adj = 0.020 Risultati analoghi con procedura stepwise Se soglia in = 0.10 entrano anche X20, X9 e X10  v. procedura backward

  6. Esempio: vera struttura dei dati • n = 200 osservazioni (simulate) in modo che: • Yi ~ N(0, 1) • Osservazioni diverse di Y (Yie Yj) sono indipendenti • 20 variabili esplicative X1 … X20 indipendenti da Y e incorrelate tra loro (v. scatterplotmatrix) • non ci sono problemi di invertibilità di (X’X) • Tutte le assunzioni del modello sono soddisfatte con E(Yi) = β0 = 0 • N.B.: β1 = 0, …, β20 = 0 R2 = 0 nel modello. • Nel campione dobbiamo però aspettarci che R2 > 0 e che i Beta cappello siano ≠ 0 per effetto della variabilità campionaria • Sono soddisfatte anche le assunzioni sulla distribuzione di Y: test e intervalli di confidenza basati sulla t sono validi

  7. Esempio: sintesi procedure automatiche La conclusione (sconfortante) è che, pur in assenza di struttura nei dati, le procedure automatiche identificano comunque un modello relazioni spurie L’arbitrarietà nella scelta delle soglie complica ulteriormente la questione Non vi sono nemmeno problemi di multicollinearità Qual è il problema? Un’indicazione la possiamo ottenere tornando al modello completo …

  8. Esempio: modello completo Dalle t-statistiche sembrerebbe β17≠0 (qualche dubbio su β20 e β9) Però … v. Tabella ANOVA

  9. Esempio: modello completo Al 5% NON possiamo rifiutare H0: β1 = β2 = … = β20 = 0 Perché c’è contrasto con il test t che porta a rifiutare β17=0?

  10. Esempio: conclusione • Il problema è nella molteplicità dei test effettuando numerosi test in sequenza, ci dobbiamo aspettare che alcuni risultino significativi per il solo effetto del caso: v. interpretazione della probabilità di errore • Tale problema si accentua nelle procedure automatiche, quando le variabili sono numerose • Il test F sul modello non ne è invece influenzato: è per costruzione un test su tutti i parametri • Ciò spiega perché il test F sul modello completo è l’unica procedura che fornisce il risultato corretto nell’esempio  in questo caso l’uso di procedure di selezione automatica delle variabili sarebbe dannoso

  11. Conclusioni sulle procedure di selezione • Le raccomandazioni sulle procedure backward – forward – stepwise sono spesso contrastanti • Trade off tra efficienza-distorsione di stime e previsioni • La (mia) esperienza è che: • gli svantaggi dei passi forward, soprattutto in termini di interpretazione del modello, possono dare luogo a inconvenienti “fastidiosi” • i passi forward forniscono spesso risultati instabili: piccole variazioni nella matrice X possono dar luogo a modelli molto diversi • la scelta delle soglie può essere rilevante per il modello finale • un’applicazione “oculata” dell’approccio backward (legata al contesto di analisi e possibilmente non automatica, anche con più soluzioni) è generalmente preferibile, a meno che non ci siano problemi seri di overfitting o nell’inversione di (X’X) • A ben vedere, tutte le procedure automatiche violano alcuni principi statistici di base (ad es.: probabilità di errore nei test) • Si sono affermati approcci più algoritmici per la scelta delle variabili:alberi decisionali

More Related