DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso Richiami sul modello di regressione lineare (semplice) Introduzione di elementi aleatori e problemi di inferenza (v. corso Metodi Statistici per il Management + Capitoli 2 – 3 del libro)

Due semplici esempi sulle vendite (Esempio Prezzi-Vendite: p. 135)

Introduzione di elementi aleatori Supermercati con prezzi/dipendentiugualipossonoaverevendite diverse: ci sonoaltrifattoriinfluenti Alcuni di questi(quellinoti) possonoessereinclusinelmodello: regressionemultipla Anchedopoavereinclusoifattorinoti, supermercati con caratteristicheanaloghepossonoaverevendite diverse: le venditesonodovute in parte a talifattori, ma in parte anche a elementi non conosciuti leinterpretiamo come variabilialeatorie (casuali) Al contrarioidipendentie i prezzi (var. esplicative) non sono variabili casuali poiché sono del tutto prevedibili dalla azienda che li stabilisce: sono fissati

Schema di riferimento Una successione di valori fissi x1, x2, … xn a cui sono associate n variabili aleatorie Y1, Y2, … Yn Il punto cruciale consiste nel descrivere in modo appropriato tali v.a.: E(Yi)? var(Yi)? Distribuzione di Yi?

Assunzioni su Yi Tutte le osservazioni sono caratterizzate dallo stesso grado di incertezza(omoschedasticità): var(Yi) = σ2i=1, 2, …, n σ2 è un parametro incognito da stimare Le osservazioni sono indipendenti(conoscendo le X): cov(Yi, Yj)=0i≠j Tutta la «struttura nota» è nelle X

I valori osservati della variabili dipendente provengono da n distribuzioni di probabilità con medie incognite: E(Yi) = µii=1, 2, …, n Modello di regressione:le medie delle distribuzioni variano linearmente con la variabile esplicativa µi= E(Yi) = α+β xi cioè i punti (x1,µ1),(x2,µ2),…, (xn,µn) stanno tutti su una retta con parametri αeβ

Modello di regressione • α e β rappresentano l’intercetta ed il coefficiente angolare della retta sulla quale giacciono le medie incognitedelle distribuzioni di Y1, …, Yn

L’ipotesichedefinisceilmodello di regressione è: µi= E(Yi) = α+β xi N.B.:questa assunzione non implica che tutti i punti (xi, yi) stiano sulla retta, ma che i valori medi delle distribuzioni da cui provengono le osservazioni di Y verificano l’equazione della retta (per i valori fissati di x1, …, xn) Dal graficotraspareinoltreche le distribuzioni da cui provengono le osservazioni di Y sonoGaussiane: y1 è una realizzazione di Y1 ~ N(µ1, σ2) y2 è una realizzazione di Y2 ~ N(µ2, σ2) …

Richiami sulla v.a. normale (pp. 63 – 72) se Y~N(µ, σ2): Z = (Y – µ)/ σ ~ N(0,1) Pr(-1.96<Z<1.96) = 0.95 Pr(-2.58<Z<2.58) = 0.99 aY+b ~ N(b+ µ, a2σ2) (v. Teorema p. 64) funzione di densità: curva “a campana” Quando è sensato assumere che Y~N(µ, σ2)?

Modello di regressione - 2 Poiché Yi= E(Yi) + termine di errore (gaussiano) possiamoscrivereilmodello come Yi = α +β xi +εi con E(εi)=0 Inoltre si assume che i termini di errore εi abbiano distribuzione gaussiana e siano indipendenti tra loro Le proprietà del termine di errore εisono equivalenti a quelle della variabile dipendente Yi(perché X è fissata)

Stima dei parametri I parametri ignoti sono: α, β, µ1,µ2,…, µn,σ2 La stima diα e β consente di ricostruire tutte le medie incognite µ1,µ2,…, µn In aggiunta, è necessario stimare σ2 = Varianza delle osservazioni Yi attorno alla retta

Stime di α e β Le formule di calcolo sono le stesse dell’analisi dei dati (minimi quadrati: p. 143) Però è diversa l’interpretazione: ora sono stime degli ignoti coefficienti  e β Pensando di ripetere più volte l’esperimento che ha generato le osservazioni y1, …, yn per valori fissi di x1, …, xn (campionamento ripetuto)si ottiene una distribuzione campionaria delle stime: anche le stime sono variabili casuali

Termine di errore e residuo stimato Modello vero (retta in blu) Modello stimato (retta in nero)

Stima di σ2 σ2= dispersione verticale attorno alla retta che unisce i valori medi delle popolazioni  varianza del termine di errore, per x fissato: σ2 = var(εi) = E(εi2) Dato che ei è l’unica stima disponibile di εi sembra naturale utilizzare come stimatore di σ2 una funzione della devianza dei residui:

Stima di σ2 Dividiamo la devianza per i suoi “gradi di libertà”: n – 2 = gradi di libertà (degrees of freedom: df) Dobbiamo “pagare” 2 df per la stima di  e β (v. p. 148)

Inferenza sui parametri(modello di regressione) Costruire intervalli di confidenza e test per la verifica d’ipotesi sui parametri del modello: ,β e 2 (da questi si possono ottenere intervalli e test anche per le medie 1, …,n). Il caso principale è quello del coeff. angolare β: l’inferenza parte dalla stima campionaria

Studio della distribuzione di Stimatore corretto (p. 149) p. 150

Al posto di σ2(ignoto) sostituiamo la sua stima s2 La radice quadrata della stima della varianza di uno stimatore è l’errore standard (standard error, SE) dello stimatore

Interpretazione dello standard error di beta cappello Rappresenta l’errore quadratico medio che si commette quando si stima il coefficiente di regressione con le formule dei minimi quadrati: è la misura (stimata) della variabilità campionaria nella stima di β tramite Principio del campionamento ripetuto

Studio della distribuzione di v. pp. 149-150

Costruzione di intervalli di confidenza per i parametri

Punto di partenza: lo scost. standard. di beta capello ha una distribuzione N(0,1) (perché?) Passaggi successivi (p. 154): si esplicita la formula della var. di beta cappello si sostistuisce2 ignoto con s2; si richiama la v.a. T di Student con n-2 gradi di libertà

Intervallo di confidenza per  Dove t/2è il percentile della distribuzione T di Student con (n – 2) gradi di libertà tale che (v. figura p. 86): Pr(T  -t/2) = Pr(T t/2) = /2 Quali assunzioni per l’uso della T di Student? E nel caso di grandi campioni?

EsercizioEsempio 7 supermercati prezzo-vendite: p. 155Esempio 7 supermercati dipendenti-fatturato: calcolo intervalli di confidenza per i parametriBeta cappello= 0.198; SE = 0.0253Pr(0.133 < β < 0.263) = 0.95Interpretazione (v. dopo)Intervallo per  e 2 (per esercizio)

Interpretazione L'intervallo di confidenza di , con probabilità = 0.95, va da 0.133 a 0.263. Ciò significa che, nell'universo di riferimento, all'aumento di un dipendente corrisponde un aumento delle vendite compreso tra 133 mila Euro e 263 mila Euro circa (con probabilità del 95%). Osservazione 1: l'intervallo è piuttosto ampio  dipende dalla ridotta numerosità campionaria (solo 7 supermercati). Osservazione 2: significato della probabilità (95%) associata all’intervallo Osservazione 3: confronto tra stima puntuale e intervallo

Costruzione di test di ipotesi per αβσ2

Dato che Sotto H0: β =0 t-statistica Calcolo del p-value (dalla tn-2) pp. 156 - 157

EsercizioEs. 7 supermercati (dipendenti-fatturato): H0:β=0 tβ=7.82p-value= 0.000548 Interpretazione: rifiuto decisamente l’ipotesi nulla H0:=0 tα=0.39 p-value = 0.714 Interpretazione : non posso rifiutare l’ipotesi nulla Es. 7 supermercati (prezzo-vendite): p. 157

Intervallo di confidenza per la previsione y0 Varianzadell’errore di previsione(p. 167) Distribuzionedell’errore di previsione Intervallo di confidenza per y0(p. 167) Da che cosa dipende

Esercizio: per un numero di dipendenti pari a 16 costruire un intervallo di previsione delle vendite al 95% Interpretazione Come ci aspettiamo che cambi l’intervallo se X = 50?

DATA MINING PER IL MARKETING