1 / 20

Pārskats par klāsterēšanu

Pārskats par klāsterēšanu. Pēteris Lediņš. Kas ir klāsterēšana?. Pamatstruktūras meklēšana lielos datu kopumos. Klāsterēšana: pielietojumi. machine learning datizrace rakstu atpazīšanā ( pattern recognition ) attēlu analīzē (robežu meklēšana?)

simeon
Download Presentation

Pārskats par klāsterēšanu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Pārskats par klāsterēšanu Pēteris Lediņš

  2. Kas ir klāsterēšana? Pamatstruktūras meklēšana lielos datu kopumos

  3. Klāsterēšana: pielietojumi • machine learning • datizrace • rakstu atpazīšanā (pattern recognition) • attēlu analīzē (robežu meklēšana?) • bioinformātikā (genomu līdzības, proteīnu ģimenes) • dažādos (ieskaitot interneta) meklētājos • socioloģijā, grupu analīzē • u.c.

  4. Klāsterēšana • Datu • Definē attāluma funkciju starp katriem diviem objektiem d(i,j). Pieņem,ka d(i,j)=0  i==j • Dažkārt pieprasa trīsstūru nevienādību. T.i. Katriem a,b,c d(a,b) <= d(a, c) + d(c, b) • Vai obligāti d(a,b) == d(b, a)? • Grafu • Kā definēt attālumu funkciju starp divām virsotnēm bez šķautnēm? • “Dabiski” – uztvert grafu kā varbūtiskas stāvokļu pārejas

  5. Algoritmu labuma kritēriji • Rezultāts • Salīdzina ar zināmo • Kādas skaitliskas vērtības minimizēšana • Cik daudz klāsteru? • Fiksēts skaits kā parametrs • Nosaka ar speciālu algoritmu/tiek atrasts darbības laikā • Ātrums • Stabilitāte

  6. Kleinberga aksiomas un neiespējamības teorēma • Jon Kleinberg. An impossibility theorem for clustering - Advances in Neural Information Processing Systems, 2002 • Pilnība: iespējams salikt šķautņu svarus tā lai būtu iespējams jebkurš klāsterējums. • Konsistence: ja attālums starp iekšējām virsotnēm paliek mazāks, bet starp ārējām lielāks, tad nemainās klāsterējums. • Mēroga nesvarība: Ja visus attālumus reizina ar pozitīvu skaitli nemainās klāsterējums

  7. Kleinbergs • Pilnība un mērogojums: • Ko darīt ar diviem objektiem? • Šķautņu svari • Konsistence, mērogojums, triviālais klāsterējums? • (Triviālais klāsterējums: viens klāsteris vai n klāsteri n objektu kopā)

  8. Neiespējamība • Ja Mērogojamība un konsistence, tad klāsterējumu kopums veido antiķēdi. (bet pilnība tā nav). • Neiespējamība arī relaksējot konsistenci uz ``apakšklāsteru konsistenci’’.

  9. Vēl relaksēšana • TODO: shai ben david

  10. Hierarhiāla klāsterēšana • Dendogrammas – klāsteru koki. • Apvienojoša vai daloša klāsterēšana • Attālums starp klāsteriem • Single link • Average link • Complete link

  11. Varbūtiska klāsterēšana • k avoti ar dažādiem varbūtību sadalījumiem • Noskaidrot, kurš punkts atbilst kuram avotam. • Avotu apraksts nav zināms • Iteratīvi optimizējot iegūto • (Shai Ben David: ``Add Structure’’, ``Fitting generative models’’)

  12. K-Means, K-Medoids • K-Medoids • Klāsteri asociē ar punktu • K-Means • Klāsteri asociē ar ``vidējo punktu’’ • Iteratīvi – vairāki paveidi, kā darīt • Populārs, bet problemātisks • Klāsteru izmērs • Daudz atkarīgs no sākotnējām izvēlēm

  13. Blīvuma klāsterēšana • Blīvuma savienojamība • Vai eksistē ``blīvs’’ ceļš no punkta a uz punktu b • e-apkārtne • Pamatobjekts • Blīvuma funkcijas • Punktu blīvums apgabalā

  14. Režģu metodes & kategorijas • Režģi: Klāsterē punktu atrašānās apgabalu nevis punktus, piekārto punktus apgabaliem • TODO: Kategorijas: kategorijas, apakškategorijas, objekti, distance starp objektiem liela.

  15. Algoritmiskās paradigmas • TODO

  16. Citas lietas • Apgrūtinājumi algoritmos • Šķēršļi • Neizpildās trīsstūru nevienādība. • Neironu tīkli • Dimensiju skaits

  17. Klāsterēšana grafos • Algoritmiskās ``paradigmas’’ • Gadījuma apstaigas īpašības • Blīvuma klāsterēšana • Daudz BFSu? • Hierarhiska klāsterēšana • Average link + ``Lielus klāsterus apvienot grūtāk’’ • Optimizācijas kritēriji

  18. Klāsterēšana orientētos grafos? • Neorientētos ir skaidra ideja, ko nozīmē klāsterēt orientētos? • Rihards Opmanis: meklēt saistītās komponentes. • Pēteris Lediņš: meklēt minimālo dominējošo kopu.

  19. Optimizācijas kritēriji grafos • Šķautnes starp klāsteriem pret visām šķautnēm • Ekspansija (relatīvais griezuma izmērs): • Visu šķelto šķautņu summa dalīta ar mazāko no izveidotajām komponentēm • Conductance (ekspansijas uzlabojums) • Dala ar minimālo iekšējo šķautņu svaru • Minimum diameter (k klāsteri, meklē mazāko maksimālo diametru) • k-mediānas

  20. MCL&Spektrālā klāsterēšana • Spektrālā klāsterēšana: • Nesaprotu, kāpēc strādā • MCL un tamlīdzīgi • Gadījuma apstaiga

More Related