1 / 29

Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006

Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir. Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006. Abbiamo visto:. Informazione Gerarchia dell’informazione Teoria dell’informazione (C. Shannon)

chance
Download Presentation

Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Teoria e tecniche della catalogazione e classificazioneUtenti, documenti, linguaggi di indicizzazionericerca5ir Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006

  2. Abbiamo visto: • Informazione • Gerarchia dell’informazione • Teoria dell’informazione (C. Shannon) • Ciclo di trasferimento dell’informazione • Sistemi di recupero dell’informazione T&T 2004/05

  3. Gerarchia dell’informazione Wisdom Knowledge Information Data T&T 2004/05

  4. Message Message Source Encoding Decoding Destination Channel Message Message Source Encoding (writing/indexing) Storage Decoding (Retrieval/Reading) Destination Teoria dell’informazione Noise T&T 2004/05

  5. Creation Active Authoring Modifying Using Creating Organizing Indexing Retention/ Mining Accessing Filtering Storing Retrieval Semi-Active Discard Distribution Networking Utilization Disposition Searching Inactive Ciclo di trasferimento dell’informazione T&T 2004/05

  6. Struttura di un sistema IR Search Line Storage Line Interest profiles & Queries Documents & data Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Formulating query in terms of descriptors Indexing (Descriptive and Subject) Storage of profiles Storage of Documents Store1: Profiles/ Search requests Store2: Document representations Comparison/ Matching Adapted from Soergel, p. 19 Potentially Relevant Documents T&T 2004/05

  7. Sistemi IR: struttura (Cooper - Maron, 1985) • l’insieme delle possibili chiavi di accesso assegnate ai documenti; • l’insieme delle domande formulabili dagli utenti; • l’insieme degli indicatori di valore informativo da assegnare ai documenti; • una regola di recupero. T&T 2004/05

  8. Oggi (e domani) • IR: alcuni concetti di base T&T 2004/05

  9. Concetti di base IR • Utenti, bisogni informativi, domande • Documenti, raccolte di documenti • Linguaggi di indicizzazione, vocabolari controllati • Processo di ricerca • Valutazione - Rilevanza T&T 2004/05

  10. Concetti di base IR • Utenti, bisogni informativi, domande • Documenti, raccolte di documenti • Linguaggi di indicizzazione, vocabolari controllati • Processo di ricerca • Valutazione - Rilevanza T&T 2004/05

  11. Utenti: bisogni informativi • Perchè costruire sitemi IR? • Le diverse persone hanno bisogni informativi diversi e del tutto svariati • Le persone spesso non sanno cosa cercano, o possono non essere in grado di esprimere il loro bisogno informativo in modo utile T&T 2004/05

  12. Domande • Una domanda (query) è una forma di espressione dei bisogni informativi dell’utente • Può essere espressa in vari modi • in linguaggio naturale • nei termini di un linguaggio di indicizzazione • Le domande talvolta non rappresentano in modo accurato il bisogno informativo • Differenze tra una conversazione tra persone e una espressione formale di ricerca T&T 2004/05

  13. Utenti: domande: cataloghi Indagine sponsorizzata dal Council on Library Resources sull’utilizzo dei cataloghi online nelle biblioteche USA: Using online catalogs: a nationwide survey, New York, Neal-Schuman, 1983. T&T 2004/05

  14. T&T 2004/05

  15. Utenti: domande: Web Indagini sull’uso del Web: • La gente che cosa cerca? • Come utilizza i motori di ricerca? • In quale percentuale trova ciò che sta cercando? • Qual è il livello di difficoltà nel trovare ciò che cerca? • Come si possono migliorare i motori di ricerca? T&T 2004/05

  16. La gente che cosa cerca nel Web? • Studio di Amanda Spink et al., Ott. 1998 Indagine su Excite; dati tratti da un campione di 316 utenti intervistati tramite questionario <www.shef.ac.uk/~is/publications/infres/paper53.html> T&T 2004/05

  17. What Do People Search for on the Web?Self-reported topics • Genealogy/Public Figure: 12% • Computer related: 12% • Business: 12% • Entertainment: 8% • Medical: 8% • Politics & Government 7% • News 7% • Hobbies 6% • General info/surfing 6% • Science 6% • Travel 5% • Arts/education/shopping/images 14% • Something is missing… T&T 2004/05

  18. 4660 sex 3129 yahoo 2191 internal site administr. 1520 chat 1498 porn 1315 horoscopes 1284 pokemon 1283 SiteScope test 1223 hotmail 1163 games 1151 mp3 1140 weather 1127 www.yahoo.com 1110 maps 1036 yahoo.com 983 ebay 980 recipes What Do People Search for on the Web? 50,000 queries from Excite 1997 Most frequent terms: T&T 2004/05

  19. Google come spirito del tempo Zeitgeist • Andiamo a vedere la pagina: <http://www.google.com/press/zeitgeist.html> T&T 2004/05

  20. Concetti di base IR • Utenti, bisogni informativi, domande • Documenti, raccolte di documenti • Linguaggi di indicizzazione, vocabolari controllati • Processo di ricerca • Valutazione - Rilevanza T&T 2004/05

  21. Documenti • Un documento è una rappresentazione di una aggregazione di informazioni, considerata come una unità • Cosa intendiamo con documento? • l’intero documento? • un suo surrogato? • parti? M. Buckland, What is a Document, “JASIS”, Sept. 1997, pp. 804-809 J. LeGoff, Documento/Monumento, in Enciclopedia, Torino, Einaudi, 1977-1982, vol. 5, pp. 38-48 T&T 2004/05

  22. Raccolte di documenti / Collezioni • Una collezione è una aggregazione fisica o logica di documenti • museo, pinacoteca • biblioteca • base di dati • biblioteca digitale • ... Krzysztof POMIAN, Memoria, in Enciclopedia, Torino, Einaudi, 1977-1982, vol. 15, pp. 388-399 T&T 2004/05

  23. Concetti di base IR • Utenti, bisogni informativi, domande • Documenti, raccolte di documenti • Linguaggi di indicizzazione, vocabolari controllati (da approfondire nel modulo B del corso) • Processo di ricerca • Valutazione - Rilevanza T&T 2004/05

  24. Linguaggi di indicizzazione • Indicizzazione a parole chiave non controllate: p.e. KWIC, KWOC, “cerca” nel titolo in un OPAC • Linguaggi di indicizzazione controllati ma non strutturati • Thesauri: controllati e strutturati • Schemi di classificazione: controllati, strutturati e codificati T&T 2004/05

  25. Vocabolari controllati • Il controllo terminologico è un tentativo di fornire un insieme standardizzato e coerente di termini (quali voci di soggetto, nomi di persone o enti, notazioni di uno schema di classificazione) con lo scopo di portare un aiuto nella ricerca di informazioni • Un esempio linguistico: Word Net <www.cogsci.princeton.edu/~wn> T&T 2004/05

  26. Vocabolari controllati • Soggettari: p.e., Soggettario di Firenze, Library of Congress Subject Headings: <http://authorities.loc.gov/> • Thesauri: p.e., ERIC Thesaurus of Descriptors <www.ericfacility.net/extra/pub/thessearch.cfm>, The Art and Architecture Thesaurus <www.getty.edu/research/conducting_research/vocabularies/>, Medical Subject Headings (MESH) • Name Authority File: <http://authorities.loc.gov/> • Schemi di classificazione: p.e., CDD, CDU, CC • ... T&T 2004/05

  27. Sistemi pre- e post-coordinati • Sistemi pre-coordinati: è l’indicizzatore (bibliotecario, etc.) che costruisce adeguate rappresentazioni del contenuto dei documenti. • Sistemi post-coordinati: è l’utente o chi conduce la ricerca che combina i singoli concetti per descrivere documenti che potrebbero essere considerati rilevanti. T&T 2004/05

  28. Concetti di base IR • Utenti, bisogni informativi, domande • Documenti, raccolte di documenti • Linguaggi di indicizzazione, vocabolari controllati • Processo di ricerca • Valutazione - Rilevanza T&T 2004/05

  29. La prossima volta: • Concetti di base IR • Processo di ricerca • Valutazione - Rilevanza T&T 2004/05

More Related