1 / 12

Alat za pretraživanje informacija na www-u

Alat za pretraživanje informacija na www-u. Što su tražilice Kako funkcioniraju tražilice Optimizacija pretraživanja. Pretražni alati.

mae
Download Presentation

Alat za pretraživanje informacija na www-u

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Alat za pretraživanje informacija na www-u Što su tražilice Kako funkcioniraju tražilice Optimizacija pretraživanja

  2. Pretražni alati • www se ne može pretraživati direktno veće se pretražuje pomoću specijaliziranih alata koji skupljaju podatke o web stranicama i formiraju ih u posebne baze podataka, omogućavajući korisnicima da putem hipertekstnih poveznica (linkova) pristupaju pronađenim stranicama. Kategorije • Pretraživači i metapretraživači, • Tematski katalozi (imenici) • Tematski vodiči • Specijalizirane baze podataka

  3. Web pretraživači (tražilice) • Web pretraživači (roboti, indeksi)koriste specijalne automatizirane programe za "uljanje", "gmizanje" po Webu ("to crawl the web")koji se nazivaju Web crawlers (gmizavac, unjalo) ili spiders (pauci) [4]. Oni skaèu s Web mjesta na Web mjesto preko poveznika, prikupljajući naslove svih mjesta, URL, i najmanje neke od njihovih tekstovnih sadržaja. Kada naðu mjesto, oni pretražuju (snimaju) (scan) Web stranice toga mjesta i zapisuju (record) sve informacije u indeks. • Programkojemu je funkcija indeksiranje ekstrahira informacije iz dokumenata i sprema ih u svoju katalošku bazu podataka. Cilj je spideraposjetiti milijune Web mjesta i ostati s njima u vezi koliko god je moguće. U svojemu hodu po mreži spideri raznih pretraživača međusobno dijele više baza podataka koje dotiču. • Web search engine – skup programskih alata koji pretražuju informacije na WWW-u. Rezultati se prikazuju u popisu i nazivaju se “pogotci”. Informacija može sadržavati web stranicu, sliku, tekst i/ili ostale tipove datoteka. Neke tražilice imaju alate za rudarenje (u newsbook-u, bazi ili otvorenim direktorijima (katalog kategoriziranih linkova)

  4. Kako rade tražilice – search engines • Što imaju i kako rade alati (strojevi) za pretraživanje: • Web crawling (pretraživanje – plaženje po web i skidanje podataka o posjećenom URL-u) • Indeksiranje – označavanje skinutog materijala prema definiranim kriterijima (naslovima, poglavljima, zaglavljima, posebnim poljima – metatagovima) i formiranje baze podataka • Traženje – upotrebom jezika upita (SQL-a) postavlja se zahtjev za traženje indeksne baze prema kriterijima za pretraživanje (ključnim riječima najčešće ili uz kombinaciju raspoloživih operatora – logičkih ili posebnih koje podržava SQL) • Problem: kako rangirati dobivene rezultate pretraživanja ovisno o značaju kojeg imaju za korisnika

  5. Web crawler Web crawler– računalni program koji pretražuje WWW na metodolški automatiziran način (mrav, automatski indekser, web spider, web robot, web skuter) • Kreiraju kopije posjećenih stranica za kasnije indeksiranje pomoću search engine-a koji će indeksirati skinute stranice za kasnija pretraživanja. Koriste se također za prikupljanje specifičnih tipova informacija kao što su e-mail adrese (na koje mogu poslati različiti spam) • To je jedna vrsta softverskog agenta; načelno započinje s listom URL-a (sjemenje). Kada je crawler posjetio URL, identificirao je hiperveze na stranici dodao ih u listu URL-a (crawl frontier) koje se rekurzivno posjećuju prema skupu postavljenih politika. Politike Crawling je zahtjevan zadatak zbog: • Broja URLa i velikog obujma – crawleri mogu skidati samo dio (frakciju) web stranice u danom vremenu i moraju definirati prioritete • Brzine kojom se sadržaji mijenjaju – crawler uzima stranicu u momentu kad je ona raspoloživa i vrlo je vjerojatno da će se u njoj nešto ubzo mijenjati • Dinamičke prirode promjena na web stranicama – server side scripting utiče na dinamičke promjene sadržaja stranice što predstavlja dodatnu poteškoću u definiranju broja parametara koji će se koristiti za pretraživanje (način sortiranja, vrsta prikaza, format datoteke, korisnički parametri....) • Dodatni problem: širina pristupnog pojasa (određuje brzinu veze) određuje također stopu osvježenja i efikasan način pretraživanja u ograničenom vremenskom periodu • Yahoo Crawler (Slurp) • Google Crawler • WebCrawler

  6. Politike web crawlinga • Politika izbora – koju stranicu skinuti; • važnot stranice je funkcija njoj svojstvene kvalitete – popularnosti i broja posjeta ili domene; problem ne može se znati unaprijed. Pretraživanje prvo u širinu pa u dubinu (Ako je pretraživaje prvo u dubinu – vertikalne tražilice) • Restrikcije na linkove koji će se slijediti (pr. Samo na .html, .asp, .php...) • Put k traženom pojmu • Fokusirani crawling • Duboki crawling – pretraživanje pojmova ne samo u naslovu i zaglavljima već bilo gdjeu tekstu ( • Politika ponovnog pregleda – kada provjeriti promjene na skinutim stanicama – starost i stopa osvježenja – definira se algoritam • Politika uljudnosti – kojom se utvrđuje kako izbjeći pretrpavanje web stranica; djelomično rješenje za problem pretrpavanja servera različitim – robot exclusion protocol – administratori određuju koji dio servera se neće dozvoliti za pregledavanje od strane crawlera. • Politika paralelizacije – kako koordinirati distribuirane web crawlere – bilježenjem URL-a kojeg je jedan crawler pronašao • Optimizacija search engina – cilj pozicionirati se na prva mjesta u upotrebi pretraživača

  7. Podjela pretraživača • Opći (Major Search Engines) - najpopularniji su i najvažniji i pokrivaju cijeli svijet; • (Google <http://www.google.com, - Yahoo <http://www.yahoo.com>, • specijalizirani (Specialty Search Engines) - vode pretraživanje kroz baze podataka, grupe za novosti (Newsgroups), nalaze online programe itd. • Po vrstama sadržaja (npr. Multimedijalni) • Po temama • Opći pretraživači sa specijalnim namjenama (<http://websearch.about.com) • metapretraživači (Metacrawlers) - za razliku od pretraživača, ne pretražuju Web sami da bi izgradili indekse. Metapretraživači pretražuju nekoliko pretraživača istodobno i rezultate prikazuju na zajedničkoj stranici; • (BYTESEARCH (http://www.bytesearch.com) • DOGPILE (http://www.dogpile.com) - brojni pretraživači, Usenet, ima jednostavno i složeno pretraživanje, Boole • INFERENCE FIND (http://www.inference.com/ifind) • INTERNET SLEUTH (http://www.isleuth.com) - izvrstan za specijalizirana pretraživanja, omogućava određivanje kategorije unutar koje se pretražuje (poduzetništvo, računala, obrazovanje, sport…) • MAMMA (http://www.mamma.com) • METACRAWLER (http://www.go2net.com/search.html) - izvrstan za dobivanje brzog odgovora • PROFUSION (http://www.profusion.com) • SAVVYSEARCH (http://www.savvysearch.com) • regionalni (Regional Search Engines) - pretraživači za razne države i regije. Glavne su kategorije pretraživaèa svrstane po kontinentima pa zatim po državama; • - pretraživači novosti (NewsSearch Engines) - službe tih pretraživača daju iznimno dobre rezultate pretraživanja kurentnih dogođaja, jer pretražuju relevantna Web mjesta dnevno; • - dječji (Kids Search Engines) - službe dječjih pretraživača dizajnirane su prvenstveno za potrebe djece bilo u fokusiranju bilo u filtriranju mjesta koja bi bila nepodobna za djecu;

  8. Metapretraživači • paralelni ili višestruki pretraživači • simultano pretražuju više pretraživača • na kraju se korisniku daju integrirani rezultati liste različitih pretraživača s prozorom za svaki od njih • ne spadaju u prave metapretraživače • postoje i višestruki pretraživači koji provode simultano pretraživanje, ali ne kombiniraju rezultate • Primjeri: • BYTESEARCH (http://www.bytesearch.com) • DOGPILE (http://www.dogpile.com) - brojni pretraživači, Usenet, ima jednostavno i složeno pretraživanje, Boole • INFERENCE FIND (http://www.inference.com/ifind) • INTERNET SLEUTH (http://www.isleuth.com) - izvrstan za specijalizirana pretraživanja, omogućava određivanje kategorije unutar koje se pretražuje (poduzetništvo, računala, obrazovanje, sport…) • MAMMA (http://www.mamma.com) • METACRAWLER (http://www.go2net.com/search.html) - izvrstan za dobivanje brzog odgovora • PROFUSION (http://www.profusion.com) • SAVVYSEARCH (http://www.savvysearch.com)

  9. Strategija pretraživanja • identificirati vlastiti koncept: tražimo li informacijski izvor ili konkretan podatak • odabrati ključne riječi (samo jedna ključna riječ možda će nam dati previše pogodaka) • odrediti sinonime • odabrati Booleove operatore ili simbole • postaviti ograničenja, filtre (jezik, domena, tip dokumenta, datum, naslovi, URL, poveznici, i drugo). • http://www.googleguide.com/web_address.html

  10. Web direktoriji • Web direktorij –održava ga urednički tim – daje popis web mjesta po kategorijama i subkategorijama • Unos sadržaja određen je politikom uredništva: sadrži RSS feeds (sadržaje koji su vezani uz neko područje mogućih interesa) • Primjer: http://directory.google.com/

  11. Imenički servisi • Imenički servisi omogućuju objavljivanje i pretraživanje elektroničkih adresa i ostalih podataka o korisnicima mreže (White pages) kao i o uslugama i resursima te davateljima usluga na mreži (Yellow pages). • U Hrvatskoj pr. http://ds.carnet.hr

  12. Izvori: • http://www.googleguide.com/web_address.html • http://prelog.chem.pmf.hr/~tezak/preinin/preinin/vje21I.html

More Related