1 / 25

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK. 9. Vnitřní dimenze a aproximativní vyhledávání. Osnova. prokletí dimenzionality vnitřní dimenze aproximativní vyhledávání přibližné vyhledávání pravděpodobnostní vyhledávání kombinace (tzv. PAC queries).

reece
Download Presentation

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Vyhledávání v multimediálních databázíchTomáš SkopalKSI MFF UK 9.Vnitřní dimenze a aproximativní vyhledávání

  2. Osnova • prokletí dimenzionality • vnitřní dimenze • aproximativní vyhledávání • přibližné vyhledávání • pravděpodobnostní vyhledávání • kombinace (tzv. PAC queries)

  3. Prokletí dimenzionality • předpoklady: vektorová sada, uniformní distribuce (resp. nízká korelacesouřadnic) • se vzrůstající dimenzí rostou efekty prokletí dimenzionality • prokletí = většina efektů je nepříznivých pro potřeby vyhledávání (i jiné potřeby) • řešení • aproximativní vyhledávání • redukce dimenze

  4. Efekty vysokých dimenzí (1) • objemy • uvažujme L2 kouli vepsanou do n-rozměrné jednotkové krychle – střed koule je tedy [0.5, 0.5, ..., 0.5] • dále uvažujme bod [0.51, 0.51, ..., 0.51] – tedy bod, který je v každé dimenzi vzdálen od středu koule o 0.1 • pro dimenzi • n < 25 je bod uvnitř koule • n = 25 je bod přesně na hranici koule • n > 25 je bod vně koule

  5. Efekty vysokých dimenzí (2) • objemy S rostoucí dimenzí klesá poměr objemu koule a krychle. Data jsou řídká – exponenciální objem vs. konst. data

  6. Efekty vysokých dimenzí (3) • povrchypočet k-rozměrných krychlí (kvadrantů) „dotýkajících se„n-rozměrné krychle Data jsou blízko os, jejich vektory jsou téměř ortogonální.(viz náhodné projekce – ortogonalita sloupců matice)

  7. Efekty vysokých dimenzí (4) • vzdálenosti S rostoucí dimenzí se vzdálenosti bodů (k počátku) přibližují. Nejbližší a nejvzdálenější soused (čehokoliv) mají srovnatelné vzdálenosti.

  8. Vnitřní dimenze (1) • vektorová (embedding) dimenze neříká nic o distribuci dat, např. • vektory [x, y, y, y, ..., y] jsou sice vysokorozměrné, ale vlastně pouze 2-rozměrné • vektory [x, 2*x, 3*x,..., d*x] leží na přímce • jak měřit dimenzi u nevektorových dat? • odpověď: vnitřní dimenze

  9. Vnitřní dimenze (2) • zobecnění vektorové dimenze, resp. popis struktury dat (a ne struktury prostoru) • mnoho definic vnitřní/fraktální dimenze • „statistická“ vnitřní dimenze (Chávez et al.)kde  je průměr 2 rozptyl vzdáleností (mezi všemi objekty) v datové sadě • tato definice je „zpětně kompatibilní“, tj. vnitřní dimenze všech (nebo velkého počtu náhodně vybraných) bodů vektorového prostoru dimenze n je O(n)

  10. Vnitřní dimenze (3) • příklad nízká vnitřní dimenze vysoká vnitřní dimenze(2D vektorová sada a L1) (30D vektorová sada a L1)

  11. Vysoká vnitřní dimenze a MAMs • všechny objekty jsou víceméně stejně (hodně) vzdálené • neexistují těsné shluky • všechny regiony MAM se překrývají s libovolným dotazem

  12. Aproximativní vyhledávání • přibližné vyhledávání (approximately correct search) • je garantována nějaká odchylka vzdálenosti, např. násobek vzdálenosti k nejbližšímu sousedu • relativně malé zrychlení vyhledávání • pravděpodobnostní vyhledávání (probabilistic search) • je garantována pouze pravděpodobnost, že nalezený výsledek bude správný (tj. v konkrétním případě může být úplně špatný) • vyšší urychlení vyhledávání, ale také vyšší riziko false dropů/false hitů • kombinace – tzv. PAC queries (probably approximately correct)

  13. Přibližné vyhledávání (1) • k-NN dotazy v M-stromu • relativní chyba  • hledání (1+)nejbližšího souseda, tj. takový soused není dál než (1+) násobku ke skutečnému nejbližšímu sousedu • úprava algoritmu kNN: z PR jsou v každém kroku odfiltrovány ty regiony které neprotínají dynamický dotaz s poloměrem rQ’ = rQ/(1+) • rychlejší, ale ne o moc

  14. Přibližné vyhledávání (2) • opět k-NN v M-stromu • ukončení algoritmu, když se změna poslední hodnoty v NN (tj. vzdálenosti ke kandidátovi na k-tého souseda) za posledních několik kroků zpomalí • z časové řady úprav této vzdálenosti se stanoví derivace – pokud spadne pod uživatelsky definovanou konstantu , je algoritmus zastaven a obsah NN je výsledek •  lze interpretovat jako šanci, že se podaří najít lepšího kandidáta

  15. Pravděpodobnostní vyhledávání • u LAESA metod • zmenšení vyhledávacího „prstence“ dělením vyhledávácího poloměru rQ • aby zmenšený poloměr zaručoval stanovenou pravděpodobnost korektního vyhledávání, je definován jako kdep je počet pivotů 2 je rozptyl na distribuci vzdáleností

  16. PAC queries • kombinace aproximativních a pravděpodobnostních metod • např. pro M-strom a k-NN • hledá se opět (1+)-NN, ale pouze s pravděpodobností  • ukončovací podmínka algoritmu je navíc rozšířena o testování poklesu dynamického poloměru rQ pod rQ, což je odhad vzdálenosti (1+)NN počítaný z distribuce vzdáleností

  17. Compact partitions (1) – inkrementální vyhledávání • předpoklad: best-first algoritmus využívající frontu PR s výsledky nebo kandidáty (viz minulé přednášky) • kNN algoritmus u M-stromu (navíc pole NN) • lze použít i pro obyčejný rozsahový dotaz, kde poloměr je fixní a tedy se nezmenšuje jako u kNN • hlavní idea – limitace počtu aplikací metriky • jakmile je algoritmus ve stavu kdy je spočítáno M vzdáleností, je výpočet zastaven a uživateli vrácen aktuální obsah PR • vzhledem k tomu, že fronta je setříděna podle vzdálenosti k datazu, nedostane se (díky limitaci)na neperspektivní objekty/zóny • jiná terminologie: region = zóna

  18. Compact partitions (2)– inkrementální vyhledávání

  19. Compact partitions (3) – hodnocení zón (zone ranking) • zobecnění předchozího definováním dalších heuristik pro setřídění fronty PR • původní heuristika dLB = d(Q, center(Z)) – rZvzdálenost dotazu k nejbližšímu možnému objektu v zóně • d(Q, center(Z)) - vzdálenost dotazu k centru zóny • d(Q, center(Z)) + rZ - vzdálenost k nejvzdálenějšímu možnému objektu v zóně • dynamic beta = b(d(Q, center(Z)) – rZ) • b = 1/(1.0 – center(Z)/mcr), kde mcr je maximální možný poloměr zóny • podobný princip jako u pravděpodobnostní LAESA

  20. Region proximity (1) • region proximity – „datová“ vzdálenost dvou regionů • pravděpodobnost, že dva regiony (Ox, rx), (Oy, ry) mají ve svém průniku společný objekt O (náhodně vybraný) – jak ji spočítat? • triviální aproximace:v metrickém prostoru nemáme objem, tj. průnik musíme kvantifikovat alternativně, např. • tento přístup je jednoduchý, nicméně nezohledňuje distribuci datových objektů a tudíž to není dobrá aproximace

  21. Region proximity (2) • region proximity – „datová“ vzdálenost dvou regionů • aproximace zohledňující distribuci vzdáleností:celková vzdálenost párů regionů se stejnou vzdáleností mezi centry Ox, Oy • jak ji spočítat? – uvažujme spojenou podmíněnou hustotucož je pravděpodobnost, že d(Ox, O) = x a d(Oy, O) = yza předpokladu d(Ox, Oy) = dxypotom lze Xdxy spočítat jako • bohužel, neznáme analytickou formu

  22. Region proximity (3) • region proximity – „datová“ vzdálenost dvou regionů • místo toho autoři navrhují aproximaci Xdxy jako kde fX, Y(x,y) je spojená hustota vzdáleností, tj. fX, Y(x,y) = fX (x) fY(y), nicméně X a Y jsou nezávislé náhodné proměnné, takže lze místo fX, Y použít f(x) (ta lze získat jednoduše nasamplováním z databáze)f(x)vlatně aproximuje původní • bx, by jsou jisté funkce, které umožňují použít různé aproximace (ortogonální, rovnoběžnou, diagonální a normalizovanou) • využití při pravděpodobnostním vyhledávání, jsou prohledány pouze takové datové regiony, které mají vzdálenost (proximity) ke koule dotazu vyšší než daná prahová hodnota

  23. Semimetrické vyhledávání (1) • uvažujme rostoucí funkci s počátkem v 0 • libovolná taková funkce aplikovaná na podobnostní míru zachovává podobnostní uspořádání, tj. pokud ji použijeme k sekvenčnímu vzhodnocení, obdržíme stejný výsledek jako s původní mírou • pokud tato funkce bude konvexní, aplikací na metriku obdržíme funkci vzdálenosti, která bude vykazovatnižší vnitřní dimenzi (vyhledem k libovolné databázi) • bohužel tato nová míra může být pouze semimetrikou, tj. nemusí se zachovat trojúhelníková nerovnost

  24. Semimetrické vyhledávání (2) • takto vzniklou semimetriku můžeme použít v libovolné MAM • tím, že vnitřní dimenze je nižší, je i vyhledávání rychlejší • na druhou stranu absence trojúhelníkové nerovnosti může vést k nekorektnímu filtrování a tedy ke ztrátě přesnosti výsledku • toto lze korigovat volbou modifikující funkce tak, aby její konvexita narušovala trojúhelníkovou nerovnost v dostatečně malé míře

  25. Zdroje • Bustos and Navarro: Probabilistic proximity searching algorithms based on compact partitions, Journal of Discrete Algorithms 2(1):115-134, 2004 • Amato et al.: Region proximity in metric spaces and its use for approximate similarity search, ACM TODS 21(2):192-227, 2003 • Skopal et al.: Metric Indexing for the Vector Model in Text Retrieval, SPIRE 2004

More Related