200 likes | 369 Views
Pārskats par klāsterēšanu. Pēteris Lediņš. Kas ir klāsterēšana?. Pamatstruktūras meklēšana lielos datu kopumos. Klāsterēšana: pielietojumi. machine learning datizrace rakstu atpazīšanā ( pattern recognition ) attēlu analīzē (robežu meklēšana?)
E N D
Pārskats par klāsterēšanu Pēteris Lediņš
Kas ir klāsterēšana? Pamatstruktūras meklēšana lielos datu kopumos
Klāsterēšana: pielietojumi • machine learning • datizrace • rakstu atpazīšanā (pattern recognition) • attēlu analīzē (robežu meklēšana?) • bioinformātikā (genomu līdzības, proteīnu ģimenes) • dažādos (ieskaitot interneta) meklētājos • socioloģijā, grupu analīzē • u.c.
Klāsterēšana • Datu • Definē attāluma funkciju starp katriem diviem objektiem d(i,j). Pieņem,ka d(i,j)=0 i==j • Dažkārt pieprasa trīsstūru nevienādību. T.i. Katriem a,b,c d(a,b) <= d(a, c) + d(c, b) • Vai obligāti d(a,b) == d(b, a)? • Grafu • Kā definēt attālumu funkciju starp divām virsotnēm bez šķautnēm? • “Dabiski” – uztvert grafu kā varbūtiskas stāvokļu pārejas
Algoritmu labuma kritēriji • Rezultāts • Salīdzina ar zināmo • Kādas skaitliskas vērtības minimizēšana • Cik daudz klāsteru? • Fiksēts skaits kā parametrs • Nosaka ar speciālu algoritmu/tiek atrasts darbības laikā • Ātrums • Stabilitāte
Kleinberga aksiomas un neiespējamības teorēma • Jon Kleinberg. An impossibility theorem for clustering - Advances in Neural Information Processing Systems, 2002 • Pilnība: iespējams salikt šķautņu svarus tā lai būtu iespējams jebkurš klāsterējums. • Konsistence: ja attālums starp iekšējām virsotnēm paliek mazāks, bet starp ārējām lielāks, tad nemainās klāsterējums. • Mēroga nesvarība: Ja visus attālumus reizina ar pozitīvu skaitli nemainās klāsterējums
Kleinbergs • Pilnība un mērogojums: • Ko darīt ar diviem objektiem? • Šķautņu svari • Konsistence, mērogojums, triviālais klāsterējums? • (Triviālais klāsterējums: viens klāsteris vai n klāsteri n objektu kopā)
Neiespējamība • Ja Mērogojamība un konsistence, tad klāsterējumu kopums veido antiķēdi. (bet pilnība tā nav). • Neiespējamība arī relaksējot konsistenci uz ``apakšklāsteru konsistenci’’.
Vēl relaksēšana • TODO: shai ben david
Hierarhiāla klāsterēšana • Dendogrammas – klāsteru koki. • Apvienojoša vai daloša klāsterēšana • Attālums starp klāsteriem • Single link • Average link • Complete link
Varbūtiska klāsterēšana • k avoti ar dažādiem varbūtību sadalījumiem • Noskaidrot, kurš punkts atbilst kuram avotam. • Avotu apraksts nav zināms • Iteratīvi optimizējot iegūto • (Shai Ben David: ``Add Structure’’, ``Fitting generative models’’)
K-Means, K-Medoids • K-Medoids • Klāsteri asociē ar punktu • K-Means • Klāsteri asociē ar ``vidējo punktu’’ • Iteratīvi – vairāki paveidi, kā darīt • Populārs, bet problemātisks • Klāsteru izmērs • Daudz atkarīgs no sākotnējām izvēlēm
Blīvuma klāsterēšana • Blīvuma savienojamība • Vai eksistē ``blīvs’’ ceļš no punkta a uz punktu b • e-apkārtne • Pamatobjekts • Blīvuma funkcijas • Punktu blīvums apgabalā
Režģu metodes & kategorijas • Režģi: Klāsterē punktu atrašānās apgabalu nevis punktus, piekārto punktus apgabaliem • TODO: Kategorijas: kategorijas, apakškategorijas, objekti, distance starp objektiem liela.
Algoritmiskās paradigmas • TODO
Citas lietas • Apgrūtinājumi algoritmos • Šķēršļi • Neizpildās trīsstūru nevienādība. • Neironu tīkli • Dimensiju skaits
Klāsterēšana grafos • Algoritmiskās ``paradigmas’’ • Gadījuma apstaigas īpašības • Blīvuma klāsterēšana • Daudz BFSu? • Hierarhiska klāsterēšana • Average link + ``Lielus klāsterus apvienot grūtāk’’ • Optimizācijas kritēriji
Klāsterēšana orientētos grafos? • Neorientētos ir skaidra ideja, ko nozīmē klāsterēt orientētos? • Rihards Opmanis: meklēt saistītās komponentes. • Pēteris Lediņš: meklēt minimālo dominējošo kopu.
Optimizācijas kritēriji grafos • Šķautnes starp klāsteriem pret visām šķautnēm • Ekspansija (relatīvais griezuma izmērs): • Visu šķelto šķautņu summa dalīta ar mazāko no izveidotajām komponentēm • Conductance (ekspansijas uzlabojums) • Dala ar minimālo iekšējo šķautņu svaru • Minimum diameter (k klāsteri, meklē mazāko maksimālo diametru) • k-mediānas
MCL&Spektrālā klāsterēšana • Spektrālā klāsterēšana: • Nesaprotu, kāpēc strādā • MCL un tamlīdzīgi • Gadījuma apstaiga