1 / 37

Odkrivanje interakcij

Odkrivanje interakcij. Aleks Jakulin jakulin@acm.org http://www.ailab.si/aleks /. ladjica. kvadrat in krog. VSEBINA. Statistični modeli in teorija informacij 2-interakcije med spremenljivkami Primer “US Senate” Statistična značilnost interakcij in intervali zaupanja

tannar
Download Presentation

Odkrivanje interakcij

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Odkrivanje interakcij Aleks Jakulin jakulin@acm.org http://www.ailab.si/aleks/

  2. ladjica kvadrat in krog

  3. VSEBINA • Statistični modeli in teorija informacij • 2-interakcije med spremenljivkami • Primer “US Senate” • Statistična značilnost interakcij in intervali zaupanja • 3-interakcije med spremenljivkami • Negativne 3-interakcije • Primer “Harris hip score” • Pozitivne 3-interakcije • Primer “Pajki” • Druge uporabe interakcij

  4. Bayesovskomodeliranje • vzorec določa obliko modela- model je sestavljen v prostoru domnev • - model “povzročimo” z algoritmom • koristnost je cilj modela koristnost prostor domnev vzorci MODEL B { A: “A omejuje B” dani (fiksni) vzorecomejujejo množico možnih modelov algoritem

  5. Klasično modeliranje koristnost prostor domnev vzorec MODEL A } B: “A omejuje B” dani (fiksni) model omejuje množico možnih vzorcev algoritem Klasična statistika: Dani vzorec je le en od možnih vzorcev, ki bi jih generiral isti model. Bayesovska statistika: Veliko modelov bi lahko generiralo tak vzorec.

  6. Današnji (klasični) pristop: koristnost: maksimalna zanesljivost (“maximum likelihood”) domneve: naj dopušča oz. ne dopušča obstoja interakcije podatki:vzorec z opisnima spremenljivkama A in B MODEL algoritem: nepristranske cenilke ali optimizacijski postopki

  7. H(C|A) = H(C)-I(A;C) Pogojna entropija --- Preostala negotovost oC,ko poznamo A. H(A) Informacija podana sspremenljivkoA H(A,B) Skupna entropija I(A;C)=H(A)+H(C)-H(A,C) Medsebojna informacija ali informacijski prispevek --- Koliko informacije je skupne A in C? Shannonovaentropija Začnemo z verjetnostnim modelom P(A,C) za spremenljivki A in C. Brez modela ni entropije. Entropija, negotovost glede C, če vemo le P(C). Površina kroga ustreza “količini” negotovosti. A C

  8. Napake modelov • Entropija je mera koristnosti: nižjo entropijo kot ima neka porazdelitev P, bolje poznamo pojav, ki ga P opisuje. • Kullback-Leiblerjeva divergenca je mera napake alternativnega modela (desna stran) ob opisovanju referenčnega modela (leva stran). • Imamo dva modela: • interakcija se dopušča:P(A,B) • interakcija ni dovoljena:P(A)P(B) • Razlika med njima je medsebojna informacija.

  9. Domena “US Senate” • Vsa glasovanja Ameriškega senata v letu 2003 (108th Congress, 1stSession) • Spremenljivke: • 100 senatorjev in izid glasovanja • Zaloga vrednosti vsake spremenljivke: {Yea, Nay, Not Voting} • Analiza 2-interakcij, kjer uporabljamo medsebojno informacijo kot izmero pomembnosti interakcije. • Skupno delo z Wrayem Buntineom (HIIT, Helsinki)

  10. Matrika podobnosti med glasovi senatorjev Demokrati temno:interakcija, visoka medsebojna informacija svetlo: ni interakcije nizka medsebojna informacija Republikanci

  11. K=20 najbolj izrazitih interakcij med Demokrati: število glasov verjetnost identičnega glasovanja

  12. Analiza s hierarhičnim razvrščanjem (algoritem “agnes”): • uporabljena razdalja Rajskega: d(A,B) = 1 -I(A;B)/H(A;B) • 5 blokov: • A: glavna republikanska skupina (zelo vplivna) • B: ekstremna republikanska skupina republikanci (nevplivna) • C: zmerna republikanska skupina (nevplivna) • D: manjša mejna demokratska skupina (vplivna) • E: glavna demokratska skupina (nevplivna)

  13. Domena: Referendum 1991 • Kako izgleda interakcija od znotraj? • Kakšna je napaka modela ob predpostavki neodvisnosti med odgovori na “Boste šli na referendum?” in “Ali zagovarjate odcepitev?” • Površina ustreza verjetnosti: • črn kvadratek: dejanska verjetnost. • barvni kvadratek: napovedana verjetnost • Barve kodirajo napako v napovedi. Bolj izrazita, kot je barva, bolj značilna je napaka. Kode: • modra: precenimo • rdeča: podcenimo • bela: ravno prav nepričakovano veliko parov: (Da,Da), (?,?), (Ne,Ne) nepričakovano malo parov: (Da, ?), (?,Da), (Da,Ne), (Ne,Da) Ljudje, ki so bili proti odcepitvi,se niso udeležili referenduma v tako velikem številu. 15σ

  14. Preizkus značilnosti interakcije porazdelitev napake obpredpostavki ničelne hipoteze • Ničelna hipoteza:interakcija da P(a,b) • Asimptotična porazdelitev napake ničelne hipoteze glede na oceno P* pri dani velikosti vzorca: D(P*(a,b)||P(a,b)). Število prostorskih stopenj df je število neničelnih celic P(a,b) minus 1. • Alternativna hipoteza:interakcija ne P’(a,b) = P(a)P(b) • Ocenimo napako alternativne h.: D(P*(a,b)||P’(a,b)) = I(A;B) • Določimo P-vrednost. integral pod delom krivulje ustreza P-vrednosti napaka na začetnem vzorcu ob predpostavki, da interakcije ni To je Pearsonov neparametrični preizkus značilnosti z Wilksovo statistiko G2, ki je tesno povezana s KL-divergenco.

  15. Ustvarjamo naključne vzorce P*(a,b) iz ničelne hipoteze P(a,b), na vsakem ocenimo napako in tako dobimo porazdelitev: Pr{D(P*(a,b)||P(a,b)) < w} P-vrednost je dobljena na podlagi percentila, kjer je w = D(P(a,b)||P(a)P(b)) Zelo podobni rezultati! Tudi na majhnih vzorcih. Asimptotika je relativno zanesljiva. POZOR 1: ponavadi ničelna hipoteza predpostavi neodvisnost, pri nas pa je ravno obratno. POZOR 2: običajno se za 2-interakcije uporabljata Fisherjev in permutacijski test, vendar nista neposredno primerna za interakcije višjih redov. POZOR 3: izbira prostorskih stopenj ni običajna. “Bootstrap”

  16. Intervali zaupanja Postopek: • Ocenimo ničelno hipotezo in vzorčimo iz nje. • Ocenimo porazdelitev napake, ki jo na vzorcih doživi ocenjena alternativna hipotezapreko ničelne hipoteze. • Porazdelitev napake opišemo z intervalom zaupanja. D(P(A,B)*||D(A)P(B)) - D(P(A,B)*||P(A,B)) Medsebojna informacija (ML): I(A;B) = 0.081 99% konfidenčni interval: [0.053, 0.109]

  17. Mini-Povzetek • Entropija je mera koristnosti, podobno kot varianca. • Informacija je razgradnja entropije na posamične spremenljivke in njihove preseke. Malce podobno ANOVA. Definicija interkacije #1. • Bistvo pa je v tem, da je medsebojna informacija tudiprimerjava skladnosti dveh modelov, ob uporabi KL-divergence. Definicija interakcije #2.

  18. korelacija med A in B 3-interakcija: Kar je skupnoA, BinC; in ni razvidno iz posamičnih parov. 2-interkacije Odvisnosti med spremenljivkami odvisna spremenljivka(rezultat, izhod, razred) C pomembnost spremenljivkeB pomembnost spremenljivke A A B neodv. spremenljivka neodv. spremenljivka

  19. Interakcijski prispevek I(A;B;C) := I(AB;C) - I(A;C) - I(B;C) = I(A;B|C) - I(A;B) • Interakcijski prispevek je lahko: • NEGATIVEN – soodvisnost atributov(podvajanje) • ZANEMARLJIV – ni interakcije • POZITIVEN – sodejavnost atributov (sinergija)

  20. Zgodovina interakcijskega prispevka • Quastler ’53 (Info. Theor. in Biology) - measure of specificity • McGill ‘54 (Psychometrika) - interaction information • Darroch ’74 (Biometrika) - multiplicative interaction • Han ‘80 (Information & Control) - multiple mutual information • Yeung ‘91 (IEEE Trans. Inf. Theory) - mutual information • Cerf&Adami ’97 (Physical Review) - ternary mutual information • Yairi et al.’98 (Intell. Engin. Systems) - measure of mutual similarity • Grabisch&Roubens ‘99 (game theor.) - Banzhaf interaction index • Brenner et al. ‘00 (Neural Comp.) - average synergy • Demšar ’02 (machine learning) - relative information gain • Orlóci ’02 (ecology) - mutual portion of tot. diversity • Bell ‘03 (NIPS02, ICA2003) - co-information

  21. Domena “Harris Hip Score” • Neodvisne spremenljivke: • lastnosti bolnikov • Odvisna spremenljivka: • uspešnost operacije, merjena s “Harrisovo oceno kolka”. Spremenljivka je opisna s tremi vrednostmi. • Analiza 3-interakcij, kjer ugotavljamo povezave med atributi. • Skupno delo z B. Zupanom, D. Smrketovo, J. Demšarjem in I. Bratkom (AIME 2003)

  22. odličendoberslab Atributa sta neuporabna vsak posamično; porazdelitev ostane nespremenjena Pozitivna interakcija Zato moramo upoštevati interakcijo, lahko s pravilom, lahko z drevesom, lahko s tvorjenjem kombiniranega atributa A*B (Kartezični produkt). Ta dva atributa sta tudi korelirana! To ne pomeni, da ne mora med njima pridi do sinergije. Ampak uporabna skupaj:

  23. Pomembnost spremenljivke Bayesova mreža Tip endoproteze in čas trajanja operacije nista v tem modelu. Glede na model ne povesta nič novega. Njuno interakcijo lahko (deloma) razumemo tudi skozi drugi vplive.

  24. vzrok Vzročni diagram moderator posledica izpah čas dooperacije pljučna bolezen HHS sladkornabolezen nevrološka bolezen čas hospitalizacije

  25. Interakcijski graf Primer: • Nevrološka bolezen sama po sebi odstrani 2.96% negotovosti glede izida. • Sladkorna bolezen sama po sebi odstrani 0.39% negotovosti glede izida. • Skupaj odstranita še dodatnih 3.99% • Skupaj: 2.96+0.39+3.99=7.34%

  26. Domena “Pajki” • Odvisna spremenljivka: število vrst pajkov, ki živijo med polji • Neodvisne spremenljivke: • število traktorskih intervencij na leto • širina in gostota robov med polji • zelišča ob poljih • usmerjenost terena • lastnosti klime, rastlinstev, ipd. • Skupno delo z Martinom Žnidaršičem in Sašom Džeroskim (EAML-2004)

  27. 4 skupine spremenljivk: oblika polja človekovi vplivi + pajki rastlinstvo oblika rastja Avtomatsko izdelana taksonomija spremenljivk

  28. uporabne spremenljivke Interakcijskidendrogram neuporabne spremenljivke

  29. Negativna interakcija • Razlaga: • Ko imamo enkrat visoko gostoto robov med polji, število “posegov” ne igra nobene bistvene vloge več. • Ko enkrat vemo za gostoto med polji, nam število “posegov” pove le 12.6 - 7.16 = 5.44% negotovosti glede odvisne spremenljivke. Raznolikost: majhnavelika

  30. Nekaj dodatnih tem • O taksonomijah vrednosti opisnih spremenljivk: • Interakcijsko analizo lahko uporabimo za organiziranje kompleksnih in velikih tabel. • Interakcijska analiza na linearnih modelih. • O pomembnosti spremenljivk: • Ali lahko sklepamo na pomembnost spremenljivke glede na koeficient v regresijskem modelu?

  31. vonj gob narodnost (US Census) izobrazba (US Census) Razvrščanje vrednosti spremenljivk

  32. Izobrazba z dvorazsežnim lestvičenjem Spremenljivke: zaslužek, poročni status, poklic, spol, količina dela, ...

  33. Interakcije in linearni modeli • Multivariatni normalni model • Diferenčna entropija tega modela univariatna multivariatna

  34. Medsebojna informacija z linearnimi modeli • Razbijemo kovariančno matriko • Primerjamo A in B • Povezava s korelacijo - monotona:

  35. odvisna spremenljivka: cena avtomobila Regresija in interakcije

  36. Povzetek • Interakcije so dobra stvar  • Z njimi si pomagamo, ko poskušamo razumeti odnose med spremenljivkami. • 2-interakcije so primerljive s korelacijami • 3-interakcije delimo v pozitivne in negativne • Lahko izvedemo teste značilnosti interakcij in ocenimo interval zaupanja v njihovo pomembnost. Pomembnost merimo s KL-divergenco. • Izdelamo lahko različne vizualizacije: • interakcijski graf • interakcijski dendrogram • pogled v interakcijo • razvrščanje vrednosti spremenljivk • Nekatere od teh vizualizacij temeljijo na tem, da je informacija metrika.

  37. jakulin@acm.org http://www.ailab.si/aleks Orange

More Related