1 / 31

CESTA : Campagne d’évaluation des systèmes de traduction automatique

CESTA : Campagne d’évaluation des systèmes de traduction automatique. Andrei Popescu-Belis Université de Genève i-expo, Paris, 14 juin 2007. Pourquoi évaluer des systèmes de traduction automatique (TA) ?. La qualité des systèmes de TA augmente ils possèdent déjà de nombreuses applications

nasia
Download Presentation

CESTA : Campagne d’évaluation des systèmes de traduction automatique

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CESTA : Campagne d’évaluation des systèmesde traduction automatique Andrei Popescu-Belis Université de Genève i-expo, Paris, 14 juin 2007

  2. Pourquoi évaluer des systèmes de traduction automatique (TA) ? • La qualité des systèmes de TA augmente • ils possèdent déjà de nombreuses applications • Les utilisateurs ont besoin de critères • pour acheter, utiliser, ou remplacer des systèmes • Des méthodes d’évaluation fiables permettent d’améliorer les systèmes de TA et aident les utilisateurs dans leurs choix CESTA | i-expo | 14 juin 2007

  3. Pourquoi est-ce difficile d’évaluerdes systèmes de TA ? • Il n’y a pas une seule, mais de nombreuses traductions correctes d’un texte donné • l’ensemble de ces traductions est difficile à cerner • Il est donc impossible de comparer une traduction produite par un système à « la traduction correcte » • il faut trouver d’autres méthodes pour en estimer la qualité • De plus, la qualité de la traduction n’est pas le seul facteur qui détermine l’utilité d’un système de TA CESTA | i-expo | 14 juin 2007

  4. CESTA (2003-2006) : objectifs • Définir un protocole fiable pour l’évaluation de la TA • mesures de qualité nécessitant des juges humains • mesures de qualité automatiques • Évaluer des systèmes de TA • industriels et académiques • traduisant de l’anglais et de l’arabe vers le français • dans plusieurs domaines et conditions d’utilisation • Mettre à disposition de la communauté des ressources et des outils pour l’évaluation de la TA • CESTA  EVALDA  Technolangue • synergies avec ARCADE2, CESART, EQueR, EVASY CESTA | i-expo | 14 juin 2007

  5. Organisateurs et comité scientifique • Organisateurs • Khalid Choukri, Olivier Hamon, Sylvain Surcin (ELDA) • Widad Mustafa El Hadi, Marianne Dabbadie, Ismaïl Timimi (Université de Lille 3, IDIST/CERSATES) • Comité scientifique • Christian Boitet (Université de Grenoble) • Stéphane Chaudiron (Ministère de la Recherche) • Anthony Hartley (Université de Leeds/CTS) • Philippe Langlais (Université de Montréal/RALI) • Andrei Popescu-Belis (Université de Genève) • Martin Rajman (EPFL/LIA) CESTA | i-expo | 14 juin 2007

  6. Plan de la présentation 1. Spécifications et méthodes • mesures de la qualité de la TA • scénarios des deux campagnes réalisées • ressources linguistiques : données de test 2. Exemples de résultats obtenus • scores des systèmes • étude de la fiabilité des métriques 3. Apports et perspectives CESTA | i-expo | 14 juin 2007

  7. Première partie Spécifications et méthodes de CESTA

  8. Première campagne CIMOS Comprendium RALI SDL Softissimo Systran Seconde campagne Comprendium RALI RWTH Softissimo Systran UPC Systèmes de TA participant à CESTA CESTA | i-expo | 14 juin 2007

  9. Mesures de qualité automatiques (1/2) • Principe: mesurer la qualité d’un texte traduit en comparant celui-ci à une ou plusieurs traductions de référence • Objectif de CESTA: tester la fiabilité de plusieurs de ces métriques, pour les traductions vers le français • Mesures employées dans CESTA • BLEU : Bilingual Evaluation Understudy (Papineni et al. 2001) • moyenne pondérée du nombre de mots en commun, du nombre de bigrammes en commun, etc. (n-grammes avec n = 1, 2, 3, ou 4) • fiabilité inconnue pour des langues cible à morphologie riche • NIST (Doddington, 2002) • variante de BLEU: gain d’information et pénalités selon la taille • WNM : Weighted n-gram metric (Babych & Hartley 2004) • pondère les comparaisons de n-grammes selon leur fréquence • autorise une certaine variation dans la traduction CESTA | i-expo | 14 juin 2007

  10. Mesures de qualité automatiques (2/2) • Mesures employées dans CESTA [suite] • X-Score (Rajman & Hartley, 2001) • analyse la grammaticalité du texte traduit en comparant la distribution morpho-syntaxique du texte avec un corpus de référence • mesure expérimentale implémentée par l’ELDA pour CESTA • D-Score (Rajman & Hartley, 2001) • analyse de la préservation du contenu sémantique en comparant la représentation sémantique vectorielle du texte traduit avec celle d’un texte de référence • mesure expérimentale implémentée par l’ELDA pour CESTA • Distances d’édition de chaînes de caractères (Leusch et al., 2003) • mWER: Multi-reference Word Error Rate • mPER: Multi-reference Position-independant Word Error Rate CESTA | i-expo | 14 juin 2007

  11. Mesures d’évaluation fondées sur des jugements humains • Objectifs de CESTA • l’évaluation humaine des systèmes (référence de la qualité) • la méta-évaluation des métriques automatiques • en comparant leurs scores avec ceux des juges humains • Développement par l’ELDA d’une interface pour l’évaluation humaine en ligne, via HTTP • Scores d’adéquation (sémantique) et de fluidité • échelle de 1 à 5 • chaque segment est évalué par deux juges différents • les segments sont présentés aléatoirement CESTA | i-expo | 14 juin 2007

  12. Interface d’évaluation de l’adéquation CESTA | i-expo | 14 juin 2007

  13. Première et seconde campagnes • Première campagne: domaine « général » • pas de phase d’adaptation au domaine des textes • mise en place du protocole d’évaluation • Seconde campagne: avant et après adaptation à un domaine spécifique =santé • comparaison des résultats des systèmes de TA dans les deux conditions • perfectionnement et réutilisation du protocole d’évaluation • analyse de la fiabilité des métriques CESTA | i-expo | 14 juin 2007

  14. Données : anglais  français • 1ère campagne • test à blanc : 20.000 mots extraits du JOC • 1 traduction de référence • test réel : 20.000 mots extraits du JOC + 200.000 mots extraits de MLCC pour le masquage (répartition aléatoire) • 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation • 2nde campagne • adaptation : 20.000 mots extraits du site Santé Canada • sous-corpus du corpus CESART français • 1 traduction de référence • test réel : 20.000 mots extraits du même site + 200.000 mots pour le masquage • 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation CESTA | i-expo | 14 juin 2007

  15. Données : arabe  français [similaires] • 1ère campagne • test à blanc : 20.000 mots extraits du Monde Diplomatique • 1 traduction de référence • test réel : 20.000 mots extraits du monde Diplomatique (2002) + 200.000 mots extraits de Al-Hayat (1998) pour le masquage • 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation • 2nde campagne • adaptation : 20.000 mots extraits des sites UNICEF, OMS et Family Health International • 1 traduction de référence • test réel : 20.000 mots extraits des mêmes sites + 200.000 mots pour le masquage • 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation CESTA | i-expo | 14 juin 2007

  16. Déroulement • Test à blanc : août 2004 • données semblables à la campagne d’évaluation  vérifier le format des fichiers et l’échange des données • 1ère campagne • 1er au 8 février 2005 : phase de test des systèmes • avril à juin 2005 : évaluations humaines • 2nde campagne • 27 septembre au 10 octobre 2005 : phase d’adaptation • 11 au 18 octobre 2005 : phase de test • octobre 2005 à février 2006 : évaluations humaines CESTA | i-expo | 14 juin 2007

  17. Deuxième partie Exemples de résultats obtenus par CESTA Le rapport final est disponible à l’adresse : http://www.technolangue.net/article199.html

  18. Pourcentage d’accord entre les scores humains en fonction de la distance [2e c.] CESTA | i-expo | 14 juin 2007

  19. Jugements humains : scores et intervalles de confiance ; rangs et leurs probabilités[2nde campagne, après adaptation au domaine] CESTA | i-expo | 14 juin 2007

  20. Jugements humains : scores et intervalles de confiance ; rangs et leurs probabilités[2nde campagne, après adaptation au domaine] CESTA | i-expo | 14 juin 2007

  21. Métriques automatiques : scores et intervalles de confiance ; rangs et probabilités [2nde campagne, après adaptation] CESTA | i-expo | 14 juin 2007

  22. Métriques automatiques : scores et intervalles de confiance ; rangs et probabilités [2nde campagne, après adaptation] CESTA | i-expo | 14 juin 2007

  23. Corrélation de Pearson (échelle -1 à 1) entre les métriques automatiques et les juges humains[2nde campagne, après adaptation, ENFR] CESTA | i-expo | 14 juin 2007

  24. Corrélation de Pearson (échelle -1 à 1) entre les métriques automatiques et les juges humains[2nde campagne, après adaptation, ENFR] CESTA | i-expo | 14 juin 2007

  25. Comparaison des scores obtenus par les métriques automatiques avant et après adaptation [2nde campagne, ENFR] CESTA | i-expo | 14 juin 2007

  26. Comparaison des scores obtenus par les métriques automatiques avant et après adaptation [2nde campagne, ENFR] CESTA | i-expo | 14 juin 2007

  27. Troisième partie Apports et perspectives

  28. Bilan global de CESTA • Production d’une grande quantité de données • corpus parallèles : texte source + 4 traductions de référence (officielle, agences) + 5 traductions automatiques • anglais/français et arabe/français • Analyse de nombreuses métriques automatiques récentes • Développement et étude de deux métriques expérimentales • Protocole d’évaluation • Site web pour l’évaluation humaine CESTA | i-expo | 14 juin 2007

  29. Apports de la campagne CESTA • Aux chercheurs • nouveaux résultats sur l’applicabilité des métriques automatiques au français  elles sont moins fiables que pour l’anglais • Aux développeurs de systèmes de TA ENFR et ARFR • utiliser le package CESTA pour mesurer leurs progrès • les intervalles de confiance et les corrélations de CESTA permettent d’estimer la fiabilité d’autres résultats obtenus • les valeurs obtenues dans CESTA permettent de comparer les systèmes avec l’état de l’art en 2005-2006 • Aux utilisateurs de TA • utiliser le package CESTA pour comparer des systèmes de TA • Le meilleur système ou le système le plus adapté ?! • beaucoup de qualités peuvent être utiles en réalité répertoire FEMTI : http://www.issco.unige.ch/femti CESTA | i-expo | 14 juin 2007

  30. Publications Hamon O., Popescu-Belis A., Hartley A., Mustafa El Hadi W. & Rajman M. (à paraître) – “CESTA: Campagne d'Evaluation des Systèmes de Traduction Automatique”. In Chaudiron S. et al., eds., Bilan de l'action Technolangue (2002-2006), Hermès, Paris, 24 p. Hamon O., Hartley A., Popescu-Belis A. & Choukri K. (à paraître) – “Assessing Human and Automated Quality Judgments in the French MT Evaluation Campaign CESTA”. In Proceedings of Machine Translation Summit XI, Copenhagen, 8 p. O. Hamon, M. Rajman (2006). “X-Score: Automatic Evaluation of Machine Translation Grammaticality”. In Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.155-160 O. Hamon, A. Popescu-Belis., K. Choukri, M. Dabbadie, A. Hartley, W. Mustafa El Hadi, M. Rajman, I. Timimi, (2006). “CESTA: First Conclusions of the Technolanguage MT Evaluation Campaign”. In Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.179-184 Philippe Langlais, Fabrizio Gotti and Alexandre Patry, (2006) " De la Chambre des communes à la chambre d'isolement: adaptabilité d'un système de traduction basé sur les segments", in Proceedings of 13th TALN, Leuven, Belgium, April 10-13, pages 217-226 . S. Surcin, O. Hamon, A. Hartley, M. Rajman, A. Popescu-Belis, W. Mustafa El Hadi, I. Timimi, M. Dabbadie, K. Choukri, (2005), “Evaluation of Machine Translation with Predictive Metrics beyond BLEU/NIST: CESTA Evaluation Campaign #1”. In Proceedings of MT Summit X, Phuket, Thailand, September 2005, p. 117-124. M. Dabbadie, W. Mustafa El Hadi, I. Timimi, (2004), “CESTA, The first European Machine Translation Evaluation Campaign”. In Multilingual Computing, n° 65 volume 15, issue 5, p. 10-11. V. Mapelli, M. Nava, S. Surcin, D. Mostefa, K. Choukri. “Technolangue: A Permanent Evaluation and Information Infrastructure”. In : Proceedings of the 4th international Conference on Language Resources and Evaluation (LREC 2004), Lisbon, Portugal, May 2004, p.381-384. W. Mustafa El Hadi, M. Dabbadie, I. Timimi, M. Rajman, P. Langlais, A. Hartley, A. Popescu-Belis (2004), “Work-in-Progress project report: CESTA Machine Translation Evaluation Campaign”. In Proceedings of COLING' 2004, Geneva, Switzerland, August 2004. CESTA | i-expo | 14 juin 2007

  31. CESTA remercie chaleureusement tous les systèmes ayant participé à la campagne ! COMPRENDIUM - Translendium SL, www.translendium.com[ENFR] MLTS - CIMOS, www.cimos.com[ARFR] RALI, Université de Montréal [ENFR] REVERSO - Softissimo, www.softissimo.com, www.reverso.net[ENFR] Université Technologique de Aachen (RWTH) [ARFR] SDL Enterprise Translation Server – SDL Int., www.sdl.com[ENFR] SYSTRAN, www.systran.fr[ARFR et ENFR] Université Polytechnique de Catalogne [ENFR] CESTA | i-expo | 14 juin 2007

More Related