1 / 73

zoeken op internet bronnen en zoektechnieken – update en vervolg

zoeken op internet bronnen en zoektechnieken – update en vervolg. Eric Sieverts BZK, 23 oktober 2012, Den Haag GO Opleidingen. doelstelling / leerdoelen. leerdoelen van deze cursus: U bent in staat de voor uw onderzoek meest geschikte bronnen te selecteren

opal
Download Presentation

zoeken op internet bronnen en zoektechnieken – update en vervolg

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. zoeken op internetbronnen en zoektechnieken – update en vervolg Eric Sieverts BZK, 23 oktober 2012, Den Haag GO Opleidingen

  2. doelstelling / leerdoelen leerdoelen van deze cursus: • U bent in staat de voor uw onderzoek meest geschikte bronnen te selecteren • U kunt daarbij toe te passen zoeksystemen optimaal gebruiken • U kunt anderen adviseren bij de keuze van informatiebronnenen het zoeken daarin

  3. gedachtenbepaling vooraf om "bronnen" te kunnen raadplegen maken we gebruik van zoeksystemen of zoekingangen. • in die zin is Bing een zoekingang op een veelheid aan bronnen. • in die zin is IceRocket een zoekingang op weblogs. • in die zin is een zoekingang op wetenschappelijke bronnen. bronnen: • een bron is een collectie van een bepaald soort informatie die online beschikbaar is, • waarbij de soort bepaald kan zijn door de vorm (krantenartikelen, blogs, video's, plaatjes, ...), en/of door de inhoud (medische informatie, nieuws, wetenschap, ...)

  4. bekend verondersteld • verschil tussen soorten diensten op internet • typerende aanbieders op internet • domeinenstructuur en url-opbouw • verschillende soorten zoekstrategieën en -doelen • verschil/toepassing gidsen versus zoekmachines • werking en geavanceerde opties van zoekmachines • betekenis van recall en precision • betekenis diepe/onzichtbare web • wijze van ranking zoekmachines, werking PageRank startpagina voor zoekhulpmiddelen • http://gostartpagina.pbworks.com

  5. soorten informatiebronnen • naar “medium” • webpagina’s • pdf’s • images • videos • weblogs • rss-feeds • tweets • ... • naar aard van informatie • wetenschappelijke informatie • naslagwerken • nieuwsberichten • krantenartikelen • (digitale) boeken • ... • ander onderscheid: • primair - secundair - tertiair • KNMI - weer-startpagina - StartNederland • doorzoekbaarheid • alleen metadata - full-text

  6. informatiebronnen en hun zoekingangen (de zoektools) • kun je alles (ook) met Google vinden? • welke Googles (en Bing’s) zijn er allemaal? (image-, blog-, video-, news-, book-, scholar-, groups-search, maar meeste ook geïntegreerd in gewone Google) • kun je met die Googles alles vinden? • welke alternatieven zijn er voor die Googles? • zie bijv. Browsys Advanced Finder http://www.browsys.com/finder [voor sommige zoektools werkt zoeken hiermee niet goed meer] • alternatieven voor het diepe (en betaalde) web

  7. boeken & (wetenschappelijke) artikelen • boeken • Google Books • Hathitrust Digital Library(open book scan project) • Amazon (ook reviews, inhoud, boek-boek citaties) • Worldcat (catalogus van 10.000 bibliotheken met postcode-functie) • Librarything (catalogus van 58.000.000 boeken van 1.000.000 bezitters) • GoodReads(reviews, recommandatie, vrienden, ...) • Picarta • Bibliotheek.nl • DOAB(directory of open access books) • Open Textbook Catalog(open access leerboeken) • enz. • artikelen (e.d.) • enz.

  8. boeken & (wetenschappelijke) artikelen (2) • boeken • artikelen (e.d.) • Google Scholar (artikelen, rapporten, proefschriften, ...) • Omega / sEURch / UvA-library(zoeksystemen van UU / EUR / UvA) • Scirus / SciVerse(artikelen van Elsevier, uit databases, webpagina’s) • OAIster / Scientific Commons (uit academische repositories) • NARCIS(40.000 proefschriften, 600.000 publicaties [veel artikelen] uit NL) • DOAJ (artikelen in Open Access tijdschriften) • CORE (artikelen in Open Access tijdschriften) • Magportal (ook -Engelstalige- publiekstijdschriften) • DeepDyve (wetenschappelijke artikelen "te huur") • enz. • enz.

  9. boeken & (wetenschappelijke) artikelen (3) boeken artikelen (e.d.) vakspecifiek zoeken (gratis zoekingangen; vaak alleen de metadata) geneeskunde: Pubmed economie: RepEc computerkunde, informatica: CiteSeer onderwijs: ERIC (hoge energie-) fysica: SPIRES-HEP bibliotheekwetenschap: LISTA filosofie: International Philosophical Bibliography transport: TRIS enz. 9 Maak nu de opdrachten van onderdeel 1

  10. 2. feiten & naslag • encyclopedieën e.d. • wikipedia > • overzicht in Yahoo Directory • overzicht in Open Directory • internet movie database • vragen & antwoorden • Quora • Yahoo-answers • FAQs: internet FAQ consortium • zoekmachine voor naslagwerkpagina’s + berekening • Wolfram Alpha • woordenboeken, vertaaldiensten e.d. • enz.

  11. 2. feiten & naslag (2) • encyclopedieën e.d. • vragen & antwoorden • zoekmachine voor naslagwerkpagina’s + berekening • woordenboeken, vertaaldiensten e.d. • answers.com (voert een metasearch uit) • Roget thesaurus • Acronymfinder • Bartleby • Google Translate • Google Translated search > • Mijn Woordenboek synoniemen • Synoniemen.net • overzicht in Open Directory • overzicht in Open Directory Nederlands • enz.

  12. vertaalt Nederlandse zoekvraag in aangevinkte taal/talen en vertaalt daarmee gevonden resultaten weer terug naar het Nederlands

  13. 3. nieuws, kranten, tijdschriften • Google News • Yahoo News • BBC , CNN e.d. • nu.nl • € LexisNexis, € Factiva • krantensites (overzicht: startnederland.nl) • tijdschriftensites (overzicht: startnederland.nl) • Newslink-magazines • .... [weblogs & tweets: zie 5 en 6] [video/tv-nieuws: zie 7]

  14. 4. archief & oud nieuws • web archive (oude versies van websites, terug tot 1996, ingang via -oude- url) • historische nederlandse kranten (versnipperd aanbod) • historische kranten KB • landelijke krantendatabank (ook papieren collecties) • Los: Groene Amsterdammer (>1877), Leeuwarder Courant (>1752) • € LexisNexis • ‘echte archieven’ via Archieven.org

  15. 5. blogs & rss-feeds • Google blogsearch • Icerocket • Technorati • (Exalead>> achteraf inperken op blogs ) • denk aan verschil tussen ingang op individuele berichten en ingang op blogs of feeds als geheel • wie citeert wie? (google blogsearch) • filtermogelijkheid op “autoriteit” ?=? belang, kwaliteit, .... • filter op termen binnen je feedreader • blogs of onderwerp volgen met blogsalert? • #hashtags

  16. 5. blogs & rss-feeds zoeken naar RSS feeds (meer dan alleen blogs) • CTRLQ: http://ctrlq.org/rss/ • RSS Searchhub: http://www.rsssearchhub.com/ • overzicht(op "makeuseof") • voor vinden van feeds van bepaalde bron / website • voor vinden van feeds waarin bepaald onderwerp centraal staat Maak nu de opdrachten van onderdeel 5

  17. 6. tweets en social search (1) Twitter in 140 tekens vaak met verkorte links vaak met foto- of video-link vaak met hashtags (#afgesprokentrefwoord) zoeken (meestal beperkt tot berichten uit laatste 1 à 2 weken) twitter (ook advanced search) tweetzi, topsy, kurrently, … tweetscan(op beperkte schaal wel oudere berichten) postpost(je eigen "tijdlijn") , snapbird("tijdlijn" van andere tweep) twicsy(foto's op twitter), ... bing - social (ook Facebook) overzicht/vergelijking tools: All the easiest ways to search old tweets 19

  18. 6. tweets en social search (2) veel hulptools archief van al weer gewiste tweets van politici: politwoops (ook nl) twubs(bijv. bij congres) : volg in real-time alles met bepaalde hashtag en voeg die tag automatisch toe aan eigen berichten whathashtag : welke hashtags meest toegekend bij zoekterm? ... Twitter als continue informatiebron: volg de "juiste" personen die interessante nieuwtjes, rapporten, artikelen via Twitter delen links uit tweets automatisch bewaren als social bookmarks met delicious zelf (tabblad sources) [zie later] via packrati.us >> delicious, pinboard, diigo, ... 20

  19. 6. tweets en social search (3) “Real time / social search engines” socialsearcher, socialmention, samepoint, whostalkin, … (tweets + blogs + facebook + …) Google personal results / Google+ ("search plus your world") real-time foto’s: skylines Forumdiscussies omgili, boardtracker, ... Google groups(ook oude nieuwgroep-discussies) voor methoden van onderzoek: adviezen van Henk van Ess in "de digitale detective"(2012) How to: use social media in newsgathering(2012) 100+ Social Media Monitoring Tools(2010) 23 Maak nu de opdrachten van onderdeel 6

  20. 7. multimedia • images • Google-image (simpele beeldherkenning; ook foto’s uit Picasa) • Yahoo-image (ook veel foto’s uit Flickr) • Bing-image • Exalead-image (veel verschillen in zoekresultaten door verschillen in “tekstzoekvelden”) • Flickr (zoekt vooral op tags; ondersteunt “Creative Commons” ) andere uploadsites: Pbase, Smugsmug, Photobucket, Zoom, Zenfolio • Google(search by image),Tineye(zoekt exacte copieën), Tiltomo, Retrievr (voorbeeldzoeken met beeldherkenning op Flickr) • speciale sites (beeldbank nationaal archief, wikimedia commons, ...) • geografisch (panoramio[google-maps], worldc.am[instagram], ...) • video • audio

  21. search by image

  22. 7. multimedia (2) • images • video • YouTube (uploads - groei: 70 uur/minuut, ook advanced search) • Youtube Edu channel • Blinkx(omroepen - 35 miljoen uur video, spraakherkenning?) • VoxaleadNews(met spraakherkenning - in meer talen - ook NL) • Bing-video • ScienceCinema(met spraakherkenning! gaat vooral over energie) • TV-uitzendingen: • Uitzending gemist(beperkte zoekfunctie) • Beeld & Geluid(doorzoekt metadata; gebruik “uitgebreid zoeken”) • Academia(selectie uit Beeld & Geluid voor hoger onderwijs; betaald) • audio • VoxaleadNews(met spraakherkenning - in meer talen - ook NL)

  23. ?

  24. Maak nu de opdrachten van onderdeel 7

  25. 8. gespecialiseerde versus algemene zoekingangen gespecialiseerde: selectief & vaak “dieper” dan algemene zoekmachine • interne zoekfunctie van individuele site • kant en klare onderwerpsgerichte zoekingangen • Scirus (wetenschap algemeen) • Findlaw (rechten USA) • WebMD / Medscape (geneeskunde) • Google-finance (financiële gegevens + nieuws) • Searchgov(metasearch Amerikaanse overheidssites) • ..... • homemade met: • Google CSE, Blekko (slashtags) zelf selecteren welke sites (url’s) in zoekmachine moeten worden meegenomen

  26. gespecialiseerde zoekmachines • vele Googles: images, scholar, blogs, maps, news, groups, books, video, … (deels in “Google universal”) • voor andere “media” veel concurrenten van Google (zagen we al) • overzicht o.a. bij Browsys of Nowgoogle (maar Google-producten werken hierin niet) • metazoekmachines, bijv. Ixquick, Dogpile of Polymeta • vergelijken van resultaten • spelden in hooiberg

  27. ingangen op diepe web toegang tot het diepe web • “handmatig” (elke database afzonderlijk doorzoeken) • overzicht "Complete planet" bij BrightPlanet • voor "wetenschap" al eerder verzamelzoeksystemen genoemd • “halfautomatisch” (doorzocht via desktop metasearch engine) • copernic-agent (metasearch vanaf eigen PC) • “automatisch” (gegevens uit bepaalde database/bron zitten ook al -allemaal?- in algemene zoekmachines) bijv. catalogus UB Wageningen Maak nu de opdrachten van onderdeel 8

  28. 9. zoeken met webzoekmachines andere algemene webzoekmachines probeer naast Google eens: • Bing(microsoft, groot) • Yahoo!(content=Bing, groot) • Exalead(frans, tamelijk klein, veel geavanceerde functies) • Gigablast("groene" zoekmachine, tamelijk klein, paar unieke functies) • Blekko("hashtags" om [domein-]selectiever te kunnen zoeken) • DuckDuckGo(verzekert privacy, geen personalisatie, tamelijk klein) • Ask(tamelijk klein, weinig unieks meer) in US hebben die samen nog 30% marktaandeel; in NL maar 3%

  29. zoeksystematiek • Vraaganalyse • Verkenning • Opstellen zoekprofiel: waaraan moet de informatie voldoen • Keuze ingang(en): zoekmachines, gidsen, bookmarksites • Daadwerkelijk zoeken; gebruik zoeksyntax • Noteren afwijkingen van zoekplan, zijpaadjes, bevindingen • Selectie uit zoekresultaat • Evaluatie • Nabewerking per relevante bron: beheren, citeren, delen • Eventueel andere ingangen of geheel andere typen bronnen (gedrukte literatuur, deskundigen) • Expliciete reflectie op zoekproces en zoekresultaat • Bij doorlopende interesse instellen van web en page alerts / feeds

  30. omgaan met zoektermen belang van "juiste" zoektermen: denk in termen van het te vinden document (wat zou in relevant document staan?) • spellingvarianten, enkel-meervoud-werkwoord (zelf bedenken of automatisch - Google) • truncatie (alleen Exalead) • alternatieve zoektermen / synoniemen: • soms automatisch bij Google • te vinden met "thesauri" / synoniemenlijsten (mijnwoordenboek, synoniemen.net, Roget's, answers.com, Bartleby) • te vinden via synoniemen uit Word-tekstverwerker • te vinden door te kijken in wat al is gevonden • ....

  31. omgaan met zoektermen denk in termen van het te vinden document (hoe zou het in relevant document staan?) • .... • "exact phrase"  losse woorden • woordnabijheid: met term-wildcard ( * ) bij Google & Yahoo "veiligheid * * tunnels" met NEAR bij Yahoo, Bing, Exalead veiligheid NEAR tunnels met AROUND(n) bij Google veiligheid AROUND(4) tunnels • eventueel een phrase van losse woorden (zonder "") ! invloed van volgorde van losse woorden op ranking (zie: Thumbshots – Ranking) • ....

  32. omgaan met zoektermen denk in termen van het te vinden document (hoe zou het in relevant document staan?) • .... • voor opsomming: generiek zoeken vs. voorbeeld zoeken ( overzicht amerikaanse presidentenvs. clinton, johnson, reagan, obama, lincoln, ... ) • gebruik context-specifieke zoektermen (event. slang, jargon) om te beperken tot specifieke context waarin onderwerp moet voorkomen (populair  wetenschappelijk ; volwassenentaal  jeugdtaal) • gewicht specifieke term verhogen door herhaling (Google) • ....

  33. omgaan met zoektermen belang van "juiste" zoektermen: • gebruik van gesuggereerde termen • vooraf: Google, Bing, Yahoo, Exalead • achteraf inperken: Ask, Exalead, Gigablast, Scirus

  34. Booleaanse bouwsteencombinatie bouwsteencombinaties met AND's en OR's (veilig OR veiligheid) AND lange AND (tunnels OR autotunnels OR verkeerstunnels) wordt in Google en Yahoo (zonder haakjes en AND) veilig OR veiligheid lange tunnels OR autotunnels OR verkeerstunnels stapsgewijze opbouwen bij Google • zoek op termen voor eerste bouwsteen:veilig OR veiligheid • als Google-instant "aan" staat, zie je meteen al resultaat • tik door met termen voor 2de bouwsteen: lange • je ziet meteen weer resultaat • tik door met termen voor 3de concept: tunnels OR autotunnels OR verkeerstunnels • enz. resultaat: (veilig OR veiligheid) AND lange AND (tunnels OR autotunnels OR verkeerstunnels)

  35. zoektermen: Google denkt voor ons Google probeert de zoekvraag te verbeteren / verbreden • automatische spellingcorrecties (veilgheid >> veiligheid) • zoekt op woorden met dezelfde woordstam(enkel-/meervoud, werkwoordsvormen, vervoegingen, verbuigingen) • afkortingen(jfk >> john f kennedy | wwii >> world war II) • voegt synoniemen van woorden toe (vaccination >> immunization) • bij losse zoekwoorden ook samengestelde term en omgekeerd (veiligheid maatregel >> veiligheidsmaatregel | catfood >> cat food) • maakt soms een term optional als die niet discriminerend genoeg is dit alles wat vaker en uitgebreider in Engels dan in Nederlands • personaliseert zoekactie op basis van eerder zoek/browse-gedrag en als je dat nou niet wilt ........ >> "verbatim"

  36. begin 2012 nieuw geïntroduceerde optie verbatim == "woordelijk" op google.nl: "woord voor woord"

  37. omgaan met aantallen resultaten • vooraf inschatten effect gebruikte termen op basis van aantal resultaten • gaat goed bij gestructureerde databases, maar: • bij Google (en andere) zijn resultaataantallen niet stabiel, onbetrouwbaar, soms onverklaarbare effecten • inperken geeft soms groter aantal, uitbreiden kleiner aantal • afhankelijk van verdeling index over servers Google • afhankelijk van Google versie / ingelogd zijn / zoekgeschiedenis • afhankelijk van keuze “your part of the world” bij Bing • Danny Sullivan legt uit waarom Google niet kan rekenen: http://searchengineland.com/why-google-cant-count-results-properly-53559 Why Google Can’t Count Results Properly

  38. exact zoeken en bijzondere tekens • woordstam-zoeken voorkomen met ".." ( "greenhouses" <geeft NIET> greenhouse effect ) • ook (automatisch) op synoniemen zoeken met een ~ (~term[Google] ; maar pas op voor precisie-problemen ! ) • op sommige leestekens kun je sinds kort zoeken (&, %, ..) (maar niet op allemaal - €, /, ", komma, ...) • getallen werken net als woorden, maar: • komma wordt gelezen als spatie, net als andere leestekens (12,93  12 93 , maar 100,000 wel  100000) • punt kan wel (12.93  12.93) • getallen zoeken in range (10..20 of $10..$20, uniek voor Google)

  39. velden, formele kenmerken • beperking op formele vereisten : taal, datum, domein, land/werelddeel, bestandstype, media • veldspecifiek zoeken (titel, url, links) : wanneer wel / niet? • zoeken via backlinks (koppelingen naar …) : link:url , maar pas op: Google geeft beperkt resultaat alternatief: opensiteexplorer.org(gratis versie: 3x per dag ...) • domein (site) : meervoudig sitefilter (bij Gigablast of Google-syntax kennen) • met Google-syntax kan in eenvoudig zoekscherm vaak meer dan in voorgeprogrammeerde “advanced search” bijv.filetype:rss / site:microsoft.com OR site:google.com • selectie vooraf vs. achteraf inperken via "more search tools" • op datum zoeken .... >>

More Related