1 / 37

Paskaita 5 . Klasifikavimas

DUOMENŲ GAVYBA. Paskaita 5 . Klasifikavimas. Kęstutis Žilinskas Šiaulių universitetas, 2013. Klasifikavimas. Klasifikavimas – paprasčiausias ir populiariausias DG uždavinys. Klasifikavimas – sistemi n is tyrinėjamų objektų išskirstymas pagal tam tikrus požymius.

kurt
Download Presentation

Paskaita 5 . Klasifikavimas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DUOMENŲ GAVYBA Paskaita5.Klasifikavimas Kęstutis Žilinskas Šiaulių universitetas, 2013

  2. Klasifikavimas • Klasifikavimas – paprasčiausias ir populiariausias DG uždavinys. • Klasifikavimas – sisteminis tyrinėjamų objektų išskirstymas pagal tam tikrus požymius. • Klasifikavimas – pradinių sąvokų grupavimas ir jų išdėstymas tam tikra tvarka, nusakančia panašumo laipsnį.

  3. Klasifikavimas • Klasifikavimas – sutvarkyta pagal tam tikrą principą aibė objektų, turinčių panašius kvalifikacinius požymius (vieną ar keletą savybių), parinktus panašumo arba skirtingumo tarp objektų nustatymui.

  4. Klasifikavimo taisyklės • Kiekviename skirstymo žingsnyje turi būti taikoma tik viena savybė; • Skirstymas turi būti visuotinis, bendras tūris lygus skirstinių tūriui; • Skirstymo nariai tarpusavyje nesuderinami, skirstymų tūriai turi nesikirsti; • Skirstymas turi būti nuoseklus.

  5. Klasifikavimo rūšys • Pagalbinis (dirbtinis) klasifikavimas, vykdomas pagal išorinį požymį, leidžiantis suteikti objektų aibei tam tikrą tvarką; • Natūralusis klasifikavimas, vykdomas pagal esminius požymius, apibūdinančius objektų vidinį bendrumą.

  6. Klasifikavimo rūšys • Paprastoji – skirstymas tik pagal požymį ir tik vieną kartą visoms objektų rūšims. • Dichotomija (A ir ne A). • Sudėtingoji – skirstymas pagal kelis požymius ir šių paprastųjų skirstymų sintezė. • Periodinė cheminių elementų lentelė.

  7. Klasifikavimas • Klasifikavimas – objekto (įvykio, reiškinio) priskyrimas vienai iš anksto žinomai klasei. • Klasifikavimas – dėsningumas, leidžiantis daryti išvadą apie konkrečios grupės (klasės) požymius. • Klasifikavimas – tai strategija „mokymas su mokytoju“ (supervisedlearning), kontroliuojamas arba valdomas mokymas.

  8. Klasifikavimo uždavinys • Kategoriškai priklausomo kintamojo numatymas, remiantis tolydinių ir/arba kategorinių kintamųjų parinkimu. • Galima numatyti, kas iš firmos klientų yra potencialūs tam tikros prekės pirkėjai, o kas – ne. • Turime binarinį klasifikavimą, kai priklausomas kintamasis gali turėti tik dvi reikšmes.

  9. Klasifikavimas • Kitas klasifikavimo variantas – priklausomas kintamasis gali turėti reikšmes iš tam tikros iš anksto nustatytų klasių aibės. • Reikia nustatyti, kokios markės automobilį klientas nori pirkti. • Nagrinėjama priklausomojo kintamojo klasių aibė.

  10. Klasifikavimo rūšys • Vienmatis klasifikavimas (pagal vieną požymį). • Daugiamatis klasifikavimas (pagal du ar daugiau požymių). • Biologinių organizmų klasifikavimas, kai organizmai skirstomi į porūšius priklausomai nuo jų fizinių parametrų matavimo rezultatų.

  11. Pavyzdys • Tegul turime turistinės agentūros klientų duomenų bazę. • Joje yra informacija apie klientų amžių ir mėnesines pajamas. • Turima dviejų rūšių reklama: brangesnis ir komfortiškesnis poilsis (1) bei pigus jaunatviškas poilsis (2). • Apibrėžtos dvi atitinkamos klientų klasės.

  12. Duomenų bazė

  13. Užduotis • Nustatyti, kuriai klasei priklauso naujas klientas ir kurios rūšies reklamą jam verta siųsti.

  14. Grafinis duomenų vaizdas • Oranžinė spalva – 1 klasė, pilka – 2. Uždavinio tikslas – nustatyti, kuriai klasei priklauso naujas klientas (balta spalva).

  15. Klasifikavimo procesas • Klasifikavimo proceso tikslas – sukurti modelį, kuris ima prognozuojamus atributus kaip įeinančiuosius parametrus ir gauna priklausomo atributo reikšmę. • Klasifikavimo proceso esmė – suskaidyti objektų aibę į klases pagal tam tikrą kriterijų.

  16. Klasifikatorius leidžia nustatyti pagal objekto požymių vektorių kuriai iš anksto apibrėžtai klasei priklauso šis objektas. • Klasifikuojant matematiniais metodais reikia turėti formalųjį objekto aprašymą, kuriuo galima operuoti panaudojant klasifikavimo matematinį aparatą.

  17. Mūsų atveju toks aprašas – duomenų bazė. • Kiekvieno objekto (duomenų bazės įrašo) kiekviename lauke – informacija apie tam tikrą objekto savybę. • Pradiniai duomenys (arba jų imtis) skaidomi į apmokančiuosius ir testinius.

  18. Apmokančioji aibė • Apmokančioji aibė (trainingset) – aibė, apimanti duomenis, kurių pagalba apmokomas (konstruojamas) modelis. • Aibę sudaro įeinantieji ir išeinantieji (tikslo) parametrai. • Išeinantieji parametrai (jų reikšmės) skirti modelio apmokymui.

  19. Testinė aibė • Testinė aibė (testset) – duomenys, nepatekę į apmokamąją aibę. • Ją taip pat sudaro įeinantieji ir išeinantieji parametrai. • Išeinančiųjų parametrų reikšmės leidžia patikrinti modelio veiksmingumą.

  20. Klasifikavimo procesas • Klasifikavimo procesą sudaro du etapai: • Modelio konstravimas; • Modelio panaudojimas.

  21. Modelio konstravimas - iš anksto apibrėžtų klasių aprašymas: • Kiekvienas duomenų rinkinio pavyzdys priskiriamas vienai iš klasių; • Šiame etape apmokančioje aibėje konstruojamas modelis; • Gautas modelis pateikiamas klasifikavimo taisyklėmis, sprendimų medžiu arba matematine formule.

  22. Modelio naudojimas - naujų arba nežinomų reikšmių klasifikavimas: • Modelio teisingumo (tikslumo) įvertinimas. • Žinomos testinio pavyzdžio reikšmės palyginamos su gauto modelio panaudojimo rezultatais. • Tikslumo lygis – teisingai klasifikuotų testinės aibės pavyzdžių procentas. • Testinė aibė negali priklausyti nuo apmokamosios aibės.

  23. Jei modelio tikslumas priimtinas, modelį galima naudoti naujų pavyzdžių, kurių klasė nežinoma, klasifikavime.

  24. Modelio konstravimas

  25. Modelio panaudojimas

  26. Klasifikavimo metodai • K. sprendimų medžiais. • Bajeso (naivusis) K. • K. dirbtiniais neuroniniais tinklais. • K. atraminiais vektoriais. • Tiesinė regresija. • K. artimiausio kaimyno metodu. • K. CBR-metodu. • K. genetiniais algoritmais.

  27. Klasifikavimas tiesine regresija

  28. Klasifikavimas sprendimu medžiu if X > 5 thengrey elseif Y > 3 thenorange elseif X > 2 thengrey elseorange

  29. Klasifikavimas neuroniniu tinklu

  30. Klasifikavimo tikslumas • Klasifikavimo tikslumo įvertinimas galimas kryžminiu patikrinimu (Cross-validation). • Tai kvalifikavimo patikrinimas testinės aibės duomenimis. • Testinės aibės klasifikavimo tikslumas palyginamas su apmokančiosios aibės klasifikavimo tikslumu. • Jei abu tikslumai beveik lygūs, modelis praėjo kryžminį patikrinimą.

  31. Duomenų skaidymas į apmokančiąją ir testinę aibes tam tikra proporcija. • Pvz.: apmokančioji aibė 2/3 duomenų, testinė – 1/3. • Jei imtis maža, galima taikyti specialius metodus, leidžiančius šioms aibėms dalinai kirstis.

  32. Klasifikavimo metodų įvertinimas • Metodus galima įvertinti pagal šias charakteristikas: • Greitis; • Robastiškumas; • Interpretuojamumas; • Apimtis. • Patikimumas.

  33. Greitis • Laikas reikalingas modelio sukūrimui bei jo panaudojimui.

  34. Robastiškumas • Nepriklausomumas nuo kokių nors pradinių prielaidų netikslumų. • Užtikrina galimybę dirbti su duomenimis „su triukšmu“ bei praleistomis duomenų reikšmėmis.

  35. Interpretuojamumas • Įgalina analitiką suprasti gautą modelį.

  36. Apimtis • Sprendimų medžio dydis. • Klasifikavimo taisyklių kompoktiškumas.

  37. Patikimumas • Metodais veikia, jei duomenų rinkinyje yra triukšmai ar netikslumai.

More Related