1 / 20

Un modèle de langage mixte combinant les termes composés et les termes simples

Un modèle de langage mixte combinant les termes composés et les termes simples . A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul Sabatier Toulouse bougha@irit.fr R. Ahmed- Ouamer

luther
Download Presentation

Un modèle de langage mixte combinant les termes composés et les termes simples

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Un modèle de langage mixte combinant les termes composés et les termes simples A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul Sabatier Toulouse bougha@irit.fr R. Ahmed-Ouamer Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou. ahm_r@yahoo.fr R2I –Tizi-Ouzou

  2. Plan • Contexte du travail • Etat de l’art • Modèle de Langage (uni-gramme) • Extensions du modèle Uni-gramme • Approche proposée • Expérimentation et évaluation • Conclusion R2I –Tizi-Ouzou

  3. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Recherche d’information Domaine Meilleure représentation du contenu sémantique des documents et des requêtes Modèle de langage Framework Modèle mixte termes composés et termes simples R2I –Tizi-Ouzou

  4. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion La Recherche d’Information • Satisfaction d’un besoin en information d’un utilisateur, qui est exprimé par une requête, sur un ensemble de documents appelé collection ou corpus. Modèle de langage pour la RI • cadre probabiliste pour la description du processus de la RI R2I –Tizi-Ouzou

  5. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Formule de Ranking LM (uni-gramme) • des performances équivalentes voir supérieurs à celles des modèles classiques (vectoriel, probabiliste) . Limites de LM Clairsemence de données (Data Sparseness) Hypothèse d’indépendance (Termsindependencyassumption) R2I –Tizi-Ouzou

  6. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Réponses Data Sparseness Lissage (Smoothing) • Sources de données • Collection • Cluster • Techniques • Dirichelet • Interpolation • backoff R2I –Tizi-Ouzou

  7. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Réponses Termsindependencyassumption • Utilisation de la dépendance entre termes. • Idée : La requête est composée de plusieurs unités de termes (n-grammes) et utilise les occurrences des unités dans le document pour l’appariement [Gao et al. SIGIR 2004], [Metzler, D and Croft, W.B. SIGIR, 2005], [Shi, L., Nie, J. Y., SIGIR, 2009] • Utilisation de la Proximité entre termes • Idée: Utilisation des fonctions de proximités qui capturent la mesure dans laquelle les termes de recherche apparaissent proches les uns des autres dans un document [Tao, T., and Zhai, C. SIGIR, 2007], [Lv, Y., Zhai. C. SIGIR, 2009]. • Utilisation d’unités d’indexation plus complexes • Idée : Développement de modèles pour une représentation plus détaillée du contenu des documents et des requêtes, et cela par l’utilisation d’unités d’indexation plus complexes en plus de l’utilisation des termes simples. [Croft, W. B et al. SIGIR, 1991], [Mitra, C et al RIAO, 1997] R2I –Tizi-Ouzou

  8. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Objectif de l’approche Mieuxreprésenter le contenusémantiquedes documents et des requêtes en introduisantunecertainesémantiquedansleursreprésentations. un modèle de langage mixte (LM_TC) qui combine les termes simples et les termes composés. R2I –Tizi-Ouzou

  9. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Avantages de l’approche • La pluparts des approches considèrent tous les n-grammes • Seulement les termes composés sont considérés dans notre approche • Pourquoi les termes composés ? • moins ambigus • Java •  Ile de java •  langage java • Plus précis • voiture   • voiture électrique • Dans ces approches Les n-grammes sont pondérés d’une manière uniforme • Une nouvelle formule de pondération des termes composés : • Fréquence de terme composé • Fréquence des termes composants • Dominance entre termes composants R2I –Tizi-Ouzou

  10. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Formalisation (Modèle de langage mixte) • Une requête Q et un document D son représentés dans le vocabulaire terme simple terme composé • Formule de Ranking (combinaison des deux modèles) : Modèle document terme simple 1-  1-α Modèle document terme composé α R2I –Tizi-Ouzou

  11. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion • Formules correspondantes • estimation de • estimation de • estimation de • Diapositive 15 R2I –Tizi-Ouzou

  12. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Schéma de pondération des termes composé • Pas de schéma bien accepté pour la pondération des termes composés • Des adaptations de schéma de pondération TF-IDF • Pas de prise en compte de l’importanced’un terme composant dans ces adaptation • dans la réalité un des termes composant peut être plus important que les autres • Ordinateur personnel • estimation de l’importance (dominance) d’un terme Nombre de document contenant Nombre de document dans la collection • probabilité de dominance R2I –Tizi-Ouzou

  13. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion • intuition dans la pondération des termes composés  : • Nous supposons que l’auteur d’un document utilise les termes composants isolément pour exprimer le terme composé comme abréviation après un nombre d’occurrences de terme composé. • exemple : <DOC> <DOCNO> AP880325-0239 </DOCNO> <FILEID>AP-NR-03-25-88 0908EST</FILEID> <FIRST>a e AM-APArts:Oscars-Overlooked Adv28 03-25 0704</FIRST> <SECOND>AM-AP Arts: Oscars-Overlooked, Adv 28,0723</SECOND> <TEXT> What do Charlie Chaplin, Greta Garbo, Cary Grant, Alfred Hitchcock and Steven Spielberghave in common? They have never won Academy Awardsfor their individual achievements. Such flagrant omissions are often cited by critics as evidence of the unfairness of Hollywood's highest prize. Oscar's 60-year history is filled with examples of the film world's highest achievers being overlooked by the Academy of MotionPicture Arts and Sciences. The latest casualties are directors James L. Brooks, whose movie ``Broadcast News'' was nominated though he wasn't, and Spielbergwho was left out in the cold with his ``Empire of the Sun.'' Although ``Broadcast News'' won seven major nominations, including best picture and three acting categories, Brooks was strangely overlooked by the Academy's directing branch. Since no movie has ever won a best picture Oscar without its director at least being nominated, the chances of the once-favored ``Broadcast News'' to be a big winner at the awards ceremony on April 11 have been significantly reduced. Brooks did better in 1984 when his ``Terms of Endearment'' took the lion's share of Oscars, including best picture and director. Spielberg's ``Empire of the Sun'' won six nominations this year, none of them major and none for director. Two years ago, ``The Color Purple'' received 11 nominations but not for him as director. The Directors Guild nevertheless named him best director that year. ``I'm floored by this,'' Spielberg said upon receiving his DGA award. ``This is the last thing I expected to happen. ... If some of you are making a statement _ thank God _ I thank you for that.'' Why the Spielberg slight? Some observers cite the fact that only 257 directors nominate for the Academy Awards, and many are veterans who might not look kindly on the young man whose films are the biggest moneymakers in history (``Jaws,'' ``E.T.,'' ``Raiders of the Lost Ark''). The Academy appeared to make amends last year by presenting Spielberg with the Irving Thalberg awardfor ``consistently high quality of production.'' There was no mention of the fact that Spielberg is primarily a director, not a producer. The Thalberg awardhas come in handy to acknowledge giants who were overlooked for individual awards. The recipients have included Cecil B. DeMille, Stanley Kramer, Alfred Hitchcock, Ingmar Bergman and Mervyn Leroy. The honorary award has also proved useful to salve the Academy's conscience. Charlie Chaplin received one at the first Academy Awards for his creation of ``The Circus'' and again at the 44thawards for ``the incalculable effect he has had in making motion pictures the art form of this century.'' Douglas Fairbanks, Judy Garland, Noel Coward, Ernst Lubitsch, Fred Astaire, Gene Kelly, Harold Lloyd, Greta Garbo, Maurice Chevalier, Stan Laurel, Cary Grant, Lillian Gish, Edward G. Robinson, Groucho Marx, Howard Hawks and Jean Renoir are others who have received honorary awards. Cary Grant once remarked that he never expected to win an Academy Award. ``I'd have to blacken my teeth first,'' he quipped, alluding to the Academy's fondness for actors who portray bums and downtrodden characters. Alfred Hitchcock also had a </TEXT> <NOTE>End Adv for Mon AMs, March 28</NOTE> </DOC> R2I –Tizi-Ouzou

  14. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion • Afin de prendre cette hypothèse (intuition), nous proposons de lisser la fréquence de terme composé en tenant en compte de la fréquence de ses termes composants relativement à leur dominance dans le terme composé. la nouvelle fréquence (revisitée) de terme composé T la probabilité de dominance de dans le terme ti composé T la fréquence initiale de terme composé T La fréquence de terme ti dans le document R2I –Tizi-Ouzou

  15. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Dans cette formule, le passage d’un terme simple à un document D est réalisé à travers tous les termes composés qui le contient. Terme composés Modèle document terme composé Hypothèse : l'auteur utilise un terme simple dans un document, il peut renvoyer à un terme composé donné, noté • estimation de R2I –Tizi-Ouzou

  16. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion On obtient : • exemple = “award”, la liste des termes composés contenant ce terme est , L= {“academy award”, “awards ceremony”, “Thalberg award”} R2I –Tizi-Ouzou

  17. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Collection Text-NSP Parsing Mots-vides lemmatisation Comptage des bi-grammes (count.pl) Bigrams filtring (>freq_th) Terrier Ordonnancement des bi-grammes (statistic.pl) Indexation Recherche Evaluation Bigrams filtring (>PMI_threshold) Liste des termes composés R2I –Tizi-Ouzou

  18. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion • Statistiques sur les collections et les Topics utilisés • Comparison des différentsmodèles (ULM, MRF(FD), LM_CT) ULM : modèle Uni-gramme FD : Modèle proposé dans [Metzler, D and Croft, W.B. SIGIR, 2005] LM_TC : modèleImplémentantnotreApproche R2I –Tizi-Ouzou

  19. ContexteRI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Conclusion Proposition d’un nouveau modèle de langage combinant les termes composés et simples Proposition d’une nouvelle méthode de pondération des termes composés Les expérimentations effectuées sur trois collection de test ont montré que notre modèle affiche de meilleurs résultats que le modèle uni-gramme ainsi que le modèle MRF (FD) Perspectives Tester l’impact des facteurs suivants: • Adjacence des termes composant • Directionalité • Taille des termes composés R2I –Tizi-Ouzou

  20. Merci de votre attention R2I –Tizi-Ouzou

More Related