1 / 17

(1)Projekt: Odkazový vyhľadávač

(1)Projekt: Odkazový vyhľadávač.

kyna
Download Presentation

(1)Projekt: Odkazový vyhľadávač

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. (1)Projekt: Odkazový vyhľadávač • Laclavík: Odkazový vyhľadávač Vytvoriť vyhľadávací stroj ktorý spracuje vybranú skupinu stránok a umožní vyhľadávanie na základe textov odkazov na stranky a nie samotného textu stránky. Možné riešiť ako úplnú implementáciu alebo prispôsobenie systému Nutch. V prípade použitia Nutch vytvoriť aj porovnanie výsledkov vyhľadávania cez klasický a zvolený prístup.

  2. (2) Projekt: Distance Search Laclavík: Distance Search Spracovanie vybranej skupiny stránok pomocou ontológie miest a obcí Slovenska obsahujúcej zemepisnú šírku a dĺžku. Vyhľadávanie na základe vzdialenosti od referenčného miesta a kľúčových slov.Využitie geografických údajov alebo ontológie geografických údajov slovenska v OWL Bratislava, využite lucene a nutch, demonštrácia na vybranej skupine stránok využitie ontológie Slovenska, Sesame Google Maps Extrakcia informácií – ulice, PSC, GPS súradnice Vyhľadávanie informácií 26.09.2008 2

  3. (3) Projekt: Triedenie a zoraďovanie • Šeleng: Triedenie a zoraďovanie Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie stránok, zdôvodnenie, vyhodnotenie. Implementácia pomcou Nutch alebo vlastnej implementácie. • OPIC, PageRank, HITS • Vytvorenie vlastného grafu odkazov na objekty v dokumentoch 26.09.2008

  4. (4) Projekt: Indexovanie PDF a Word dokumentov Laclavík: Indexovanie PDF a Word dokumentov (na disku ale aj z web stránok) pomocou Nutch a Lucene alebo mnoGoSearch. Možná aj úplná implementácia spolu so zohľadnením textu odkazu z webu.PDF je možné konvertovať na linuxe pomocou pdf2text zahrnuté štandardne v distribúciách. RTF pomocou rthca Word .doc súbory je možné konvertovať pomocou Catdoc. Takisto v Jave je možné použiť PDFBox.org aPOI alebo TextMining.org na MS Word  Odporúčané Lucene alebo jeho porty do iných jazykov. Vziať do úvahy názvy adresárov, meno súboru, dátum vytvorenia a metadáta dokumentov. Identifikovať nadpisy a inak indexovať web verzia, vziať do úvahy text odkazov an PDF a word dokumenty spolu s okolím textu Vyhľadávanie informácií 26.09.2008 4

  5. (5) Projekt: Textové operácie • Slovenský Lematizér alebo Stemmer • Egothor, Stempel, JULŠ, Tvaroslovník, ... • Snowball =>java => pre lucene • Google approach pre slovenský stemmer • Zistiť čo najviac experimentovať len napísať a vyhodnotiť • Overenie na množine slov. Môže sa vytvoriť a overiť aj pre špecifické typy slov napr. geografické názvy, názvy ulíc alebo priezviská

  6. (6) Projekt: Sociálne siete • OpenSocial API • ?Prispôsobenie výsledkov vyhľadávania? • Vlastný nápad kde bude extrakcia metadát alebo vyhľadávanie a kombinácia so sociálnou sieťou. • E.g. vyhľadávanie vo fotkách friendov • Gadget pre orkut, hi5 ...

  7. (7) Projekt: Sociálna sieť a email • Extrakcia sociálnej siete z emailu. Indexovanie a zoradenie podľa počtu interakcií pri fultextovom vyhľadávaní. • Extrakcia viacdimenzionálnej sociálnej siete • Ľudia, projekty, geografické lokality, kontaktné údaje • Práca so sieťou v IBM Gallaxy • Iná navigácia v sieti • Zobrazenie 5-10 najčastejších termov v interakciách • Tvorba grafu socialnej siete, Xobni, IBM Gallaxy • Spojenie semantickeho modelu a Socialnej siete • Semanticky search • Tools: Lucene, Regexes, Ontea, see Xobni, IBM Gallaxy

  8. (8) Projekt: Email search • Indexovanie a vyhľadávanie emailov • Acoma + lucene + jednoduché JSP/Servlet/GoogleAPI rozhranie pre vyhľadávanie • Spracovanie mailov pomocou JavaMail library • Zameranie na attachmenty, text alebo utrieďovaniu funkciu • Overenie! E.g. gmail versus vytvorená implementácia • Source: mailing listy, vlastné emaily, mbox, gmail

  9. (9) Projekt: Extrakcia informácií • Geografické dáta • Kontaktné info (email, tel) • Osoby • Firmy a organizácie • Udalosti – kalendár, Doodle • Zdrojové dáta • Emaily • Správy • Web • Regulárne výrazy • GATE, Ontea, IBM Gallaxy • Gazzeters

  10. (10) Projekt: Slovenské domény • Spracovanie slovenských domén • www.sk-nic.sk/domeny.txt • Zoradit podla poctu vlastnikov, registratorov • Aj zmeny v registratoroch, vlastnikoch ... • Spracovanie historie – stiahnute subory za urcite obdobie. • Web aplikácia s výstupom • A) Pocty domen podla registratorov, vlastnikov, podla DNS serverov a pod.B) Casove zmeny tychto poctov v urcitom casovom obdobi na zaklade registratora, vlastnika alebo domeny:Priklad 1: - ID: XXXX-0001 - date_from: 2008-05-01, date_to: 2008-09-31 - Registrator: 34, 56 (change: 22) - Owner: 3, 5 (change: 2)Priklad 2: - Domain: xxyy.sk - from 2008-01-05, to 2008-03-06, regid: XXXX-0001, owner: YYYY-0005, DNS1: dns1.sk, DNS2: dns2.sk - from ...

  11. (11) Projekt: Prieskum Trhu • Extrakcia informacii o produktoch alebo sluzbach z webu (ako Froogle) • Porovnanie podla ceny napr. • Vybrat konkretnu domenu. • Napr. Webhosting, cena, veľkosť priestoru, počet emailov, poskytnuté služby – PHP, IMAP, MySQL, PostgreSQL ....

  12. (12) Projekt: Informácie o firmách • Extrakcia informácií • Sídlo, webstránka, obchodný register, • Kontaktné údaje, .... • oblasť činnosti

  13. (13) Projekt: Informácie o ľuďoch • Extrakcia informácií • Sídlo, webstránka, sociálne siete, • Kontaktné údaje, .... • Zamestnanie. • Graf vzťahov k objektom (firmy, ľudia, geografické miesta ...)

  14. (14) Projekt: Logs and GeoIP • Spracovanie log suborov pomocou extrakcie informacii. • Zistit co najviac udajov. • E.g. IP => Geo, Krajiny • Užívatelia - rozdelenie • Typy logov: • mailserver, web server, DNS server • POP3 server • IMAP • Výstup tabuľky alebo RRD database, grafy A) Web server logyi) Web traffic podla domeny a krajiny kde sa IP nachadza:    Priklad:    - domain: xxx.com, date: 2008-09-25    - sk: 250348, pl: 34897874, ..., de: 3233B) Mail server logyi) Vytiahnut cely SMTP tok emailu.     Priklad:    FROM: xx@yy.com, TO: zz@nn.org    - queueid: received from, received by    - queueid: received from, received by    - ...    - queued as queueid2    - queueid2: ...    - ...    - queueid5: deliveredii) Mail traffic podla domeny a krajiny kde sa IP nachadza (aj poslane aj prijate emaily):    Priklad:    - domain: xxx.com, date: 2008-09-25    - prijate: sk: 250348, pl: 34897874, ..., de: 3233    - odoslane: sk: 8749322, pl: 33444, ..., de: 43369iii) Mail Traffic priebezne spracovat pomocou RRDTreba upravit skript mailgraph (http://mailgraph.schweikert.ch/) tak, aby namiesto poctu prijatych/odoslanych emailov generoval traffic prijatej a odchadzajucej SMTP komunikacie. Info vytahovat priebezne z logov. Pouzit RRDtool (http://oss.oetiker.ch/rrdtool/) nastroj - zapisovat do RRD databazy, z ktorej sa nasledne moze vygenerovat graf.

  15. (15) Projekt: MapReduce • Hadoop, HDFS, HTable • Hocaký problém z IR alebo IE portovať na Hadoop • Rozbehanie Nutch pod hadoop • Extrakcia informácií large scale (e.g. regex) • Spracovanie logov • Použitie HTable • Testovanie na Hadoop Clusteri na UISAV

  16. (16) Projekt Crawling • Focused Crawler • Sťahovanie emailov z mailinglistov • Sťahovanie iných zdrojov na základe textu alebo URL odkazu • Sťahovač ktorý rozozná či sa stránka dostatočne líši a podľa toho sa rozhodne • Ide o ignorovanie stránok s rovnakým obsahom iba zmena v zoradení, print, email ...

  17. (17) Projekt – Crawl and Search • Sťahuje iba images alebo PDF alebo word • Indexuje iba podľa textu odkazu a odkazu

More Related