1 / 27

Søking på Internett

Søking på Internett. Forskar Svein Ølnes Vestlandsforsking, Sogndal. Tema. Informasjonssøk historisk Søk på Internett – historisk tilbakeblikk Ulike typar søketenester Kva er ein søkemotor? Korleis fungerer ein søkemotor? Søkemotor sett frå brukar og frå tenestetilbydar

deo
Download Presentation

Søking på Internett

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Søking på Internett Forskar Svein Ølnes Vestlandsforsking, Sogndal

  2. Tema • Informasjonssøk historisk • Søk på Internett – historisk tilbakeblikk • Ulike typar søketenester • Kva er ein søkemotor? • Korleis fungerer ein søkemotor? • Søkemotor sett frå brukar og frå tenestetilbydar • synlege vevtenester • Kan vi stola på søkemotorane? • omfattar søkemotorane heile Internett? • Informasjonskvalitet, tiltru • annonsar, betalt indeksering, betalte søkeord • Finst det andre søkemotorar enn Google? • Treng vi andre søkemotorar enn Google? • Framtidsutsikter: Bruk av metadata, ”den semantisk veven” • Praktiske tips og råd for betre søking Vestlandsforsking www.vestforsk.no

  3. Informasjonssøk • Computer-aided information search and retrieval • historie om lag like gammal som datamaskinene • første skikkelege gjennombrot på 50-talet i samband med søk og erstatt av uttrykk i lovtekst • IR = Information Retrieval • Før WWW har informasjonssøk særleg vore knytt til databasar og slik sett databasesøk • søk i strukturerte data • Internett/WWW har endra dette ved søk i store, ustrukturerte datamengder Vestlandsforsking www.vestforsk.no

  4. Internett-søk i eit historisk lynglimt • I begynnelsen var.... Archie • utvikla i 1990 av Alan Emtage, pga. Unix-konvensjonar vart ’Archives’ til ’Archie’... • pre-web søkemotor (ftp) • The World Wide Web Wanderer (Wandex) – den første søkeroboten på web’en • Galaxy (1994), den første internett-katalogen • Excite (1993) • WebCrawler (1994) – første fulltekstindeksering av web • Yahoo! (1994) • 10 år med internett-søk har vist at det skjer raske endringar og mange søketenester har relativt kort levetid. Yahoo! er ein av få tenester som har vore med heile tida • AltaVista var ei viktig teneste fram til slutten av 90-talet. På berre ca. eit halvt år forsvant den nesten heilt då Google tok over Vestlandsforsking www.vestforsk.no

  5. Ulike typar søketenester • Katalog • menneskeskapt hierarkisk database over nettressursar (Yahoo, Open Directory, LookSmart, Kvasir) • Søkemotor • robot, database, brukargrensesnitt mot database(Google, AltaVista, Teoma, Kvasir...) • same søkemotor kan vera motor i ulike tenester (Google blir brukt i Yahoo, AOL, Kvasir...) – outsourcing av søk! • Metasøkemotor • søkemotor som brukar andre søkemotorar som kjelde, parallellsøk i mange underliggjande basarHotBot, Queryster, DogPile, Excite, MetaCrawler, Mamma • I praksis er i dag dei fleste søketenester ein kombinasjon av katalog og søkemotor Vestlandsforsking www.vestforsk.no

  6. Kva er ein søkemotor (1) • I Søkerobot (crawler, bot, spider, vevkjerring) • program som følgjer lenker på veven og kopierer informasjon (tekst) inn i den sentrale databasen • II Database • informasjonen samla av roboten blir lagra i ein data-base med ein del tilleggsinfo • indekseringa i etterkant av informasjonsinnhenting inneber m.a. statistikk over ord, plassering av ord i teksten, analyse av lenker m.m. • III Søkegrensesnitt • brukaren sin interaksjon med søkemotoren • enkelt søkefelt eller grensesnitt for avansert søk Vestlandsforsking www.vestforsk.no

  7. Søkemotor: Søkerobot • Søkerobot • ikkje ein, men mange robotar (program) som traverserer nettet og hentar inn informasjon • ei teneste som Google vil vanlegvis indeksera ei vevteneste ein gang i månaden • søkeroboten les vevsider som ein ”primitiv” tekstbasert nettlesar Vestlandsforsking www.vestforsk.no

  8. Søkemotor: Database • Database • full HTML-kopi av alle sider (repository) • dokument-indeks: informasjon om enkeltsider • leksikon • treff-lister (hit lists): førekomstar av ord i eit dokument Vestlandsforsking www.vestforsk.no

  9. Søkemotor: Søkegrensesnitt • Søkegrensesnitt • Søkeboks for enkle søk • Avansert søk med hjelp til avgrensing • Problem: • Ingen standard for søk i søkemotorar • korleis fungerer søket ”epler pærer” i Google? (finsk undersøking viste at > 60% av brukarane tok feil) • Variabel støtte for Boolsk logikk (AND, OR, NOT) • For meir informasjon om oppbygging av ein søkemotor, les ”The Anatomy of a Large-Scale Hypertextual Web Search Engine” av Larry Page og Sergey Brink (grunnleggjarane av Google) Vestlandsforsking www.vestforsk.no

  10. Synlege vevtenester (1) • For sluttbrukar er søkegrensesnittet den synlege delen av søkemotoren • For tenestetilbydar er søkeroboten den viktigaste delen • søkerobotar les vevsider som ”primitive” nettlesarar • http://www.delorie.com/web/lynxview.html for å sjå korleis søkemotoren les sidene • eksempel på usynleg side: www.kjornes.no/start.htm Vestlandsforsking www.vestforsk.no

  11. Synlege vevtenester (2) • Noko av det som kan skapa problem for søkerobotar: • Dynamisk genererte sider (database-baserte tenester) • Java på klientsida • Javascript • Flash • Rammer (frames) • Dersom det er viktig for deg at nettsida er synleg på nettet: bruk enkel teknologi! • tilby i det minste eit nettstadskart som roboten kan bruka som utgangspunkt for indeksering Vestlandsforsking www.vestforsk.no

  12. Kan vi stola på søkemotorane? - Omfang • Søkemotorar dekkar ikkje heile veven • stor usynleg del av nettet (deep web) • informasjon i databasar • lukka område • veven mindre samanvevdenn før trudd • ”Sløyfe-teorien” – Bow Tie • Graph Structure of the WebBroder, Kumar et al. (AltaVista, IBM og Compaq) Vestlandsforsking www.vestforsk.no

  13. Kan vi stola på søkemotorane? - Omfang • Stor, usynleg del av veven • > 500 milliardar vevsider • Google indekserer 4 mrd sider (mindre enn 1 prosent!) • Ikkje all informasjon på store nettstader blir indeksert; ofte berre 3-4 nivå • Teknologiske problem for indeksering • Kor ofte blir sider indeksert (og nye nettstader indeksert for første gang)? Vestlandsforsking www.vestforsk.no

  14. Søkemotorar: Relevans • To viktige omgrep når det gjeld søking: • Precision • er søkeresultatet relevant for søket? • kjem dei mest relevante resultata først i resultatsettet? • kor bra er tenesta til å sortera ut irrelevante dokument? • Recall • kor mange av dei relevante dokumenta finn du? • kan ikkje kontrollerast (dersom vi visste dette, trengde vi ingen søkemotor!) • I praksis er det ikkje skarpt skilje mellom desse to omgrepa. Som eksempel kan nemnast eit standard søk på Google; etter kvart som ein blar fram side etter side med resultat, vil recall auka og presisjon minka • TREC (Text REtrieval Conference – initiert av National Institute of Standards and Technology (NIST) er eit viktig forum for forsking innanfor området • Eksempel: • Du søker etter info om strutseoppdrett. Det finst 20 relevante dok om temaet. Du finn 16 dok og av desse er 10 relevantePrecision = 62% (10/16) og Recall = 50% (10/20) Vestlandsforsking www.vestforsk.no

  15. Kan vi stola på søkemotorane? - Tiltru • Kven står bak informasjonen? • autoritativ kjelde? • kommersiell aktør? • privatperson? • ingen opplysning? • referansar? • oppdatering? • Er informasjonen • ekte? • uavhengig? • objektiv? • inngir tillit? Vestlandsforsking www.vestforsk.no

  16. Kan vi stola på søkemotorane? - Betaling • Sponsing/reklame • Betaling for å bli vist ved visse ord - Paid listing/paid placement/pay per click • FTC – Federal Trade Commission – innførte i 2002 tilrådingar for søketenester for å skilja klart mellom betalt og ikkje-betalt innhald • Betalt indeksering (paid inclusion) • Garanti for å bli indeksert, men ikkje for å bli synleg (i prinsippet) • Søkemotorane tek store sjansar om dei blandar saman ikkje-betalt innhald (”redaksjonelt stoff”) og betalt (”annonsar”). På lang sikt livsfarleg for tilliten. Vestlandsforsking www.vestforsk.no

  17. Finst det andre søkemotorar enn Google? • Fort å sjå seg blind på ein dominerande aktør som Google • bør stadig prøva ut andre søkemotorar • nisjesøk • dersom du søker etter offentleg informasjon i Norge, bør norge.no vera ein betre søkemotor enn Google (men ikkje heilt sikker på at den er det...) • Kvasir er avgrensa til .no-domenet og bør slik sett kunna gi betre resultat enn ei meir omfattande teneste (i realiteten er det Google som leverer søkeresultat til Kvasir; skilnaden blir emnekatalogen Kvasir har bygt opp) • Startsiden.no tilbyr søk i Google, Kvasir, AltaVista, Yahoo! og Alltheweb (som no er ein del av Yahoo!) • Google har i dag ein for dominerande rolle sidan den også blir brukt som motor for mange av dei viktigaste konkurrentane • Meir informasjon: • Search Engines and controversy: http://www.firstmonday.dk/issues/issue9_1/gerhart/ Vestlandsforsking www.vestforsk.no

  18. Mest brukte søkemotorar (januar 2004) GG = Google YH = Yahoo MSN = Microsoft AOL = America Online AJ = Ask Jeeves Panel på meir enn 60 000 brukarar i USA Vestlandsforsking www.vestforsk.no

  19. Kva for ein søkemotor? • Same søkemotoren kan vera brukt på mange søketenester: • Google er også søkemotor for tenester som • Yahoo! (heilt fram til årsskiftet) • AOL (America Online) • Kvasir (Scandinavia Online – SOL) • Yahoo! har gjennom oppkjøp følgjande søkemotorar: • Inktomi • AltaVista • AlltheWeb (FAST) • gjennom Inktomi gir dei søkeresultat for MSN (Microsoft) Vestlandsforsking www.vestforsk.no

  20. Treng vi andre søkemotorar enn Google? • Kontroll av søk er ein sterk maktfaktor på nettet; søk er den viktigaste måten å finna ny informasjon • Søkemotorane opererer tilslørt: • vi veit ikkje korleis dei vektlegg informasjon • vi veit ikkje kva kriteria dei brukar for utval • vi veit ikkje om det skjer manipulering av informasjon • kort sagt: vi veit svært lite om korleis dei opererer • Sjå opp for ”Nye Yahoo!” – dei vil truleg bli ein hardare konkurrent for Google Vestlandsforsking www.vestforsk.no

  21. Misbruk av søkemotorar • Pornoindustrien har vore og er den største utfordraren for søkemotorar • stadig nye, ”innovative” løysingar for å lura søkemotorane • ulike kampanjar blir førte ved hjelp av (misbruk av) søkemotorar; t.d. ”Google bombing” • eks.: søk på ”miserable failure” i Google • Misbruk av søkemotorar kan føra til svartelisting/utestenging • ingen klare reglar, men visse generelle tilrådingar for å unngå dette • ”skriv for folk, ikkje for søkemotorar” er den mest generelle tilrådinga Vestlandsforsking www.vestforsk.no

  22. Framtida for internett-søk • Søketenester på Internett vil fortsatt bli viktig framover • Etter kvart som e-handel tek av, vil søk knytt til dette blir viktigare • Lokale søk, personalisering • Oppkjøp og konsolidering; søkeindustrien har vore gjennom ei tid med mange oppkjøp og reduksjon av aktørar; eit spenningsmoment er kva Microsoft vel å gjera på søkeområdet (kjøpa Google eller utvikla eigen søketeknologi?) • Ein stadig større del av veven er basert på XML; det kan gi gevinstar for søk i framtida Vestlandsforsking www.vestforsk.no

  23. Den semantiske veven • Søkemotorar er trass i imponerande resultat på søk nokså ”primitive”; det er stort sett tal (statistikk) det handlar om • Søkemotorane forstår ikkje kva søket gjeld – du vil vanskeleg få svar på søk av typen ”kor mange av Ibsens verk har vore utgangspunkt for film?” • ”Den semantiske veven” er eit Internett der informasjonen blir forstått [av maskiner] • Viktige initiativ: • RDF – Resource Description Framework • Topic Maps - emnekart Vestlandsforsking www.vestforsk.no

  24. Praktiske råd ved søk (1) • Installer søke-verktøylinje! (aukar bindinga til søkemotoren, men likevel veldig praktisk) • Finn ut korleis søkemotoren fungerer (boolske operatorar, søkespråket generelt) • For mange treff/for lite relevante treff(myte: søkemotorane er ubrukelege fordi dei returnerer så mange treff – det spelar ingen rolle kor mange treff dei returnerer, berre dei første treffa er relevante nok!) • innsnevring (i Google ved å leggja til fleire søkeord, eller ”søk innafor treff”) • For få treff: • utvid søket ved å ta bort søkeord eller brukar andre uttrykk Vestlandsforsking www.vestforsk.no

  25. Praktiske råd ved søk (2) • Bruk utvida søk/avansert søk(undersøkingar viser at berre 2-3% av brukarane nyttar avansert søk! ”Avansert søk” er dessutan heilt misvisande; det er det enkle søket som er avansert, ”avansert søk” er heller ”søk med støttehjul”) • For lettare utnytting av avanserte funksjonar: sjekk ut www.soople.com – nytt grensesnitt mot Google • Bruk av søkefeltet som kalkulator • Fleire tips: • Google Guide: http://www.googleguide.com/ Vestlandsforsking www.vestforsk.no

  26. Analyse av resultat-treff, Google Vestlandsforsking www.vestforsk.no

  27. Meir informasjon • SearchEngineWatch – www.searchenginewatch.com • www.notess.com / SearchEngineShowedown • www.highrankings.com – Highrankings.com, mest for søkemotor-optimalisering [SEO] • www.extremesearcher.com • TREC – Text REtrieval Conferensehttp://trec.nist.gov (TREC 2004: 16.-19. nov., USA) • ACM Special Interest Group on Information Retrieval (SIGIR) • Search Engine Meeting (årleg konferanse) • SEM 2004 arr. i Haag, Nederland, 19. og 20. april) • Google Papers - http://labs.google.com/papers.html Vestlandsforsking www.vestforsk.no

More Related