1 / 145

Sistemi per il recupero delle informazioni

Sistemi per il recupero delle informazioni. SISTEMI PER IL RECUPERO DELL’INFORMAZIONE. Information Retrieval.

Download Presentation

Sistemi per il recupero delle informazioni

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sistemi per il recupero delle informazioni SISTEMI PER IL RECUPERO DELL’INFORMAZIONE

  2. Information Retrieval • L’Information Retrieval (IR) si occupa della rappresentazione, memorizzazione e organizzazione dell’informazione, al fine di rendere agevole all’utente il soddisfacimento dei propri bisogni informativi. • le informazioni devono essere rappresentate ed organizzate in modo da fornire all'utente un facile accesso all'informazione cui è interessato. • le richieste di informazione dell'utente vengono tradotte in queries che vengono elaborate da un motore di ricerca o sistema di IR. Nella forma più comune le queries sono espresse come insiemi di parole chiave (keywords o termini indice) che riassumono l'informazione desiderata. • Data una collezione di documenti e un bisogno informativo dell’utente, obiettivo dell’IR è di recuperare, all’interno di una collezione, tutti e solo i documenti rilevanti. • rispetto alla teoria classica delle basi di dati, l’enfasi non è sulla ricerca di dati ma sulla ricerca di informazioni.

  3. Rilevanza • Per essere efficace nel suo intento di soddisfare il bisogno di informazione dell'utente, un sistema di IR deve in qualche modo interpretare il contenuto dei documenti ed ordinarli a seconda del grado di rilevanza rispetto a ciascuna query. • Per ottenere l'interpretazione del contenuto del documento è necessario estrarre l'informazione sintattica e semantica dal testo. La difficoltà non sta solo nella scelta del modo in cui estrarre tali informazioni, ma anche in come utilizzarle per stabilirne la rilevanza. Pertanto la nozione di rilevanza è fondamentale per l'IR. • Lo scopo principale di un sistema di IR è di recuperare tutti i documenti rilevanti per la query dell'utente cercando di recuperare il minor numero possibile di documenti non rilevanti.

  4. IRS: descrizione funzionale

  5. I vari passi

  6. IL PROBLEMA INFORMATIVO • Il problema informativocorrisponde ad un particolare bisogno di informazione dell’utente. Tramite un processo di rappresentazione, il problema informativo viene tradotto in una richiestaespressa nel linguaggio di interrogazione dell’IRS. • Analogamente, dai documenti, tramite un altro processo di rappresentazione, spesso chiamato di classificazioneo indicizzazione, si passa al surrogato dei documenti, cioè alla loro rappresentazione nell’IRS. • Sia nella classificazione di un documento da parte di un esperto che nella formulazione della richiesta da parte di un utente può essere usato un vocabolario controllato organizzato in un thesaurus.

  7. IL PROBLEMA INFORMATIVO • I metodi di rappresentazione dei documenti si possono separare in due categorie: quelli che danno una rappresentazione diretta del contenuto dei documenti e quelli che ne danno una rappresentazione indiretta. Nel primo caso il documento è rappresentato dalle parole in esso contenute mentre nel secondo il documento è rappresentato da termini di indicizzazione derivati manualmente o automaticamente e che ne descrivono in modo sintetico e completo il contenuto • Rappresentazione dei documenti in forma sintetica: • indicizzazione: l’idea è quella di associare a ciascun documento un insieme di termini significativi che saranno utilizzati per selezionare il documento.

  8. IL PROBLEMA INFORMATIVO • Possiamo pensare ad un IRS come ad un sistema in cui da un lato entrano documenti che vengono sottoposti ad un processo di indicizzazione, per ottenerne una rappresentazione sintetica, dall’altro entrano le richieste dell’utente che devono essere codificate in modo analogo, cioè come un insieme di termini. • In fase di recupero: • formalizzazione delle richieste • confronto tra richieste e rappresentazione di documenti

  9. IL PROBLEMA INFORMATIVO • Si definisce tecnica di recupero (retrieval technique) di un IRS la tecnica adottata dal sistema per confrontare l’interrogazione utente con il surrogato dei documenti. • La tecnica di recupero adottata da un IRS, è il meccanismo interno del sistema che lo guida nel giudicare come rilevanti o non rilevanti i documenti di una raccolta, in rapporto ad una specifica interrogazione. • Le tecniche di recupero sono di due tipi: • per corrispondenza esatta (exact match) • per similitudine ocorrispondenza parziale(partial match) • Risultato • Binario (si/no) – il risultato soddisfa o non soddisfa la richiesta (corrispondenza esatta) • Probabilistico – il risultato soddisfa la richiesta in una qualche misura (corrispondenza parziale)

  10. Polisemia • Il fatto che l'informazione all'interno dei documenti e le queries siano rappresentate da espressioni del linguaggio umano costituisce un'ulteriore complicazione del task dell‘ Information Retrieval. • Un primo problema è quello della polisemia: a differenza dei linguaggi formali, dove alle parole del linguaggio corrisponde un unico significato, nel caso dei linguaggi naturali le parole possono avere più di un significato (in questo caso si dice che la parola è polisemica), col risultato che l'ambiguità di una singola parola può venire propagata al resto della frase. • per esempio l'aggettivo vecchio può avere sia il significato di vecchio utilizzato per descrivere qualcosa come appartenente ad un periodo od un'epoca precedente, sia quello di vecchio nel senso di usato, logoro; mentre pellicola può essere sia un film che il supporto su cui vengono registrate le immagini in una macchina fotografica. Quindi dicendo una vecchia pellicola ci si può riferire sia ad un film d'annata, sia ad un rullino rovinato.

  11. Sinonimia • La sinonimia, ovvero l'esistenza di parole con significato equivalente od identico (ad esempio convegno e riunione), ha per certi versi un effetto contrario: infatti in questo caso, in risposta ad una query che contenga una parola con sinonimi, la probabilità che l'insieme dei documenti ritornati sia incompleto rispetto all'insieme dei documenti rilevanti per la query è sicuramente superiore al caso in cui la query non contenga parole con sinonimi.

  12. Polisemia e Sinonimia • Il problema della sinonimia può essere risolto facendo ricorso a risorse lessicali come i thesauri, i quali, data una certa parola, permettono di trovarne i sinonimi. • Invece la risoluzione della polisemia avviene attraverso il processo di disambiguazione semantica (in inglese Word Sense Disambiguation WSD). • La realizzazione di un algoritmo efficiente per la disambiguazione semantica è tuttora un problema aperto nel campo dell'elaborazione del linguaggio naturale.

  13. Descriviamo ora il processo di indicizzazione

  14. Processo di indicizzazione • Manuale: è una persona che sceglie quali termini meglio caratterizzano il contenuto di un documento • Più “semantico” e quindi migliore • Soggettivo, costoso • Linguaggio controllato • Automatico: fatto da un programma • Più sintattico, su base statistica e quindi “peggiore” • Economico, scalabile • Linguaggio libero

  15. Indicizzazione: controllata versus non controllata • Controllata: • controllabilità del dizionario, quindi possibilità di decidere a priori quali descrittori utilizzare per indicizzare una collezione di documenti; l’insieme di descrittori che forma il dizionario è prefissato • ma, interrogazioni e documenti sono indicizzati con descrittori che devono appartenere al dizionario • indicizzazione manuale di solito controllata per ridurre l’incoerenza tra gli indicizzatori • precisa, ma può essere incompleta e le interrogazioni potrebbero non essere soddisfatte

  16. Indicizzazione: controllata versus non controllata • Incontrollata o non controllata: • forma il dizionario man mano che i documenti sono elaborati • il dizionario è costituito da tutti i descrittori che appaiono almeno una volta in almeno un documento • può essere imprecisa, ma le interrogazioni sono soddisfatte con maggiore successo

  17. Qualità dell’indicizzazione • Finalità: rappresentare il contenuto semantico di un documento con due obbiettivi: • Esaustività: assegnare un grande numero di termini indice • Specificità: il grado di specificità del linguaggio utilizzato • termini generici: non sono adatti a distinguere i documenti rilevanti da quelli irrilevanti • termini specifici: permettono di reperire pochi documenti, ma la maggior parte di questi è rilevante • Modalità: • estrazione diretta dal documento intero (full text) o mediante l’utilizzo di fonti esterne (es: dizionari controllati) • tecniche associative (tesauri, pseudo-tesauri, clustering)

  18. Esaustività E’ la capacità dell’indice di rappresentare il contenuto informativo della collezione L’esaustività dipende dal numero di descrittori assegnati a ciascun documento e dal numero di documenti a cui è stato assegnato un descrittore Se si rappresentasse un indice con una matrice in cui le righe sono i documenti, le colonne sono i descrittori e un elemento è la frequenza del descrittore nel documento, un’indicizzazione ad elevata esaustività sarebbe rappresentata da una matrice densa, ovvero un indice in cui un descrittore è assegnato a molti documenti e un documento è descritto da molti descrittori

  19. Specificità Capacità dell’indice di discriminare i documenti tra loro sulla base del contenuto informativo Se l’indice è in grado di discriminare i documenti, allora la collezione viene indirettamente organizzata in sottocollezioni in cui i documenti condividono aspetti comuni del proprio contenuto informativo Nell’indicizzazione ad elevata specificità, un descrittore è assegnato a pochi documenti e, se il descrittore è utilizzato nell’interrogazione, il numero di documenti reperiti è più basso del numero di documenti reperiti nel caso di un’indicizzazione esaustiva

  20. Esaustività versus Specificità In generale la decisione principale che deve essere presa da un indicizzatore, sia esso manuale che automatico, è relativa all’assegnazione di un descrittore ad un documento Se la decisione è quella d’assegnare il descrittore, allora aumenta l’esaustività e diminuisce la specificità; ciò comporta un maggiore richiamo ed una minore precisione Se si decide di non assegnare il descrittore, diminuisce l’esaustività e aumenta la specificità, avendo un minore richiamo ed una maggiore precisione Ogni decisione comporta, quindi, un costo che si riflette sull’efficacia del reperimento; assegnare il descrittore al documento con un peso aiuta

  21. Indicizzazione manuale • L’indicizzazione manuale può essere fatta usando parole estratte dal testo o termini controllati, o descrittori, estratti da un thesaurus preesistente. • In generale viene utilizzato un linguaggio controllato; questa scelta presenta diversi vantaggi: • semplificazione del processo di indicizzazione • indipendenza, o minor dipendenza, dal soggetto che effettua l’indicizzazione • semplificazione dell’ uso da parte degli utenti ( se conoscono il linguaggio di indicizzazione)

  22. Indicizzazione manuale: pro e contro Vantaggio: permette una rappresentazione indiretta del contenuto dei documenti con termini che evidenziano i concetti in essi trattati Svantaggio: può portare a rappresentazioni non accurate né consistenti se non è fatta da persone con una buona conoscenza dell’argomento trattato nel documento. Una rappresentazione è accurataquando viene fatta usando un numero adeguato di termini; contrariamente si pregiudica il richiamo del sistema. Una rappresentazione è consistente se documenti che trattano lo stesso argomento vengono rappresentati, anche da persone diverse, con gli stessi termini; contrariamente si pregiudica la precisione del sistema. In generale, comunque, con l’indicizzazione manuale è difficile garantire rappresentazioni accurate e consistenti.

  23. Indicizzazione automatica • L’indicizzazione automatica (automatic indexing) di un documento testuale è il processo che esamina automaticamente gli oggetti informativi che compongono il documento e, utilizzando degli algoritmi appositi, produce una lista di termini indici (index terms). • Questa lista può essere utilizzata per una rappresentazione più compatta del contenuto informativo del documento di partenza. Tipicamente: indicizzazione full-text. • I termini indice sono utilizzati come surrogati per la rappresentazione del documento originale e quindi possono essere utilizzati al suo posto durante la fase di recupero • L’uso del thesaurus è previsto anche per l’indicizzazione automatica per sostituire termini estratti automaticamente con termini più specifici o più generali.

  24. Schema del processo di indicizzazioneautomatica di documenti testuali

  25. Indicizzazione automatica • L’indicizzazione automatica si basa su tecniche statistiche, partendo dal presupposto che la frequenza di occorrenza delle parole in un testo in linguaggio naturale sia correlata con l’importanza di queste parole nel rappresentare il suo contenuto. • Se invece che un singolo documento si considera una raccolta di documenti, per stabilire quali parole chiave scegliere nell’indicizzazione, si tiene conto anche di come esse siano distribuite nella raccolta: se una parola appare con una frequenza alta in tutti i documenti, allora diminuisce la sua importanza. • Si pensi alla parola “calcolatore” in una raccolta di testi di informatica.

  26. Considerazioni sullafrequenza dei termini • Termini funzionali • avverbi, articoli, preposizioni ecc. • es., "and", "or", "of", "but", … • la frequenza di questi termini è alta in tutti i documenti • le parole in assoluto più frequenti sono anche poco significative • le 250 parole più comuni coprono in media il 40- 50% di un testo • Quello che conta non è la frequenza assoluta ma la frequenza relativa • Termini indicatori del contenuto • parole che identificano i contenuti del documento • hanno frequenza variabile da un documento all’altro della collezione • la loro frequenza è indicativa dell’importanza nel rappresentare il contenuto del documento

  27. Analisi lessicale e selezione della parole • E’ il processo di trasformazione di un flusso di caratteri di input (il testo originario del documento) in un flusso di parole (token) ovvero una sequenza di caratteri portatore di uno specifico significato • Nel testo le parole possono essere facilmente identificate grazie alla presenza di spazi, a capo, segni di interruzione, etc…

  28. Esempio Eliminazione delle parole comuni • Stralcio di una lista di esclusione per la lingua inglese: A ALMOST AMONGST ANYWHERE ABOUT ALONE AN ARE ACROSS ALONG AND AROUND AFTER ALREADY ANOTHER AS AFTERWORDS ALSO ANY AT AGAIN ALTHOUGH ANYHOW BE AGAINST ALWAYS ANYONE BECAME ALL AMONG ANYTHING BECAUSE

  29. Esempio • Riduzione delle parole alla radice • Si utilizzano liste di suffissi: • Es. calcol[are] calcol[atore] calcol[atrice] calcol[abilità] calcol[o]

  30. Termini pesati • L’efficacia dell’indicizzazione aumenta se ai termini che caratterizzano un documento si assegna un peso che rifletta l’importanza del termine per il documento. • Se n sono i termini usati per l’indicizzazione, il documento D della raccolta viene rappresentato dal vettore D = (T1, …, Tn), dove ogni Ti è il peso del termine nel documento. • Una raccolta di documenti si riduce cosi ad una matrice di termini con tante righe quanto sono i documenti e tante colonne quanti sono i termini usati per l’indicizzazione.

  31. Termini pesati • Fra le funzioni proposte per il calcolo del peso di un termine la più usata tiene conto sia della sua rappresentatività considerando la frequenza di occorrenza in un documento sia della capacità del termine di discriminare un documento dagli altri • Se ad es il linguaggio di indicizzazione è: {Arbusto, Architettura, botanica, coltivazione, colonna, pianta, Rinascimento, Roma, ....}, il vettore rappresenta un documento in cui ‘arbusto’ ha peso 0, ‘architettura’ ha peso 4, ‘botanica’ ha peso 0, .........

More Related