480 likes | 630 Views
Computerlinguistik. 13. Vorlesung (26.01.2012). apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de. Computerlinguistik. Inhalt der Vorlesung. Einführung Methoden Tagging Formale Methoden Parsing
E N D
Computerlinguistik 13. Vorlesung (26.01.2012) apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de
Computerlinguistik Inhalt der Vorlesung Einführung Methoden Tagging Formale Methoden Parsing Ontologien Anwendungen Informationsextraktion Maschinelle Übersetzung Textanalyse
Computerlinguistik Maschinelle Übersetzung Wiederholung: Bei der maschinellen Übersetzung unterscheiden wir • (ältere) regelbasierte Verfahren, • (neuere) statistikbasierte Verfahren und • (noch neuere) hybride Verfahren.
Computerlinguistik Maschinelle Übersetzung • Hybride Verfahren • Die klassischen statistischen Modelle beruhen auf Wörtern, deren Reihenfolge etwa im Sprachmodell betrachtet wird und für die das Übersetzungsmodell angelegt wird. Bei der Betrachtung des „Translation Memory“ hatten wir aber bereits bemerkt, dass Phrasen unter Umständen bessere grundlegende Einheiten sind. • Phrasen repräsentieren die semantischen Bestandteile von Sätzen und innerhalb von Phrasen gibt es häufig morphologisch ausgedrückte Kongruenzen (etwa in Bezug auf Kasus, Numerus und Genus).
Computerlinguistik Maschinelle Übersetzung • Hybride Verfahren • Es könnte sich also lohnen, ein MT-System zu entwickeln, dass mit Phrasen arbeitet. Dabei kann man die regelbasierte Methode des syntaktischen Transfers mit statistischen Methoden verknüpfen. • Der erste Schritt dafür ist eine „tranduction grammar“, „synchronous grammar“ genannt, die faktisch den syntaktischen Transfer beschreibt.
Computerlinguistik Maschinelle Übersetzung • Transduction Grammar (Synchronous Grammar) • Die Transduktionsgrammatik beschreibt die strukturellen Entsprechungen für ein Sprachpaar, zumeist in einem kontext-freien Grammatikformat. • Ein bekanntes Beispiel für eine Transduktionsgrammatik ist die • Inversion Transduction Grammar (Wu, 1997; vgl. auch Jurafsky & Martin, 2009, Abschnitt 25.10, und Cherry & Lin, 2007).
Computerlinguistik Maschinelle Übersetzung • Inversion Transduction Grammar – Beispiel nach Jurafsky & Martin, 2009, für das Sprachpaar Englisch – Spanisch • lexikalische Regeln • N witch/ bruja • Negation didn’t / no • V slap / dió una bofetada • P _/ a | from/de • Det the / la | the/le • Adj green / verde
Computerlinguistik Maschinelle Übersetzung • Inversion Transduction GrammarEnglisch – Spanisch • Konstituentenregeln • S [NP VP] • NP [Det Nominal] | Mary / María • VP [V PP] | [Negation VP] • PP [P NP] • Nominal <Adj N>
Computerlinguistik Maschinelle Übersetzung • Inversion Transduction GrammarEnglisch – Spanisch • Regeln mit eckigen Klammern gelten für beide Sprache: • S [NP VP] • Regeln mit spitzen Klammern gelten auch für beide Sprache, • aber bei umgekehrter Reihenfolge: • Nominal <Adj N> • entspricht • Nominal Adj N / N Adj
Computerlinguistik Maschinelle Übersetzung • Inversion Transduction Grammar • Es ist zu beachten, dass die Ausdrucksmächtigkeit von ITG unter Umständen nicht ausreicht, etwa wenn diskontinuierliche Konstituenten auftreten (Melamed, 2003). • Er kam zuhause an. • He arrived at home. VP [V PP] ?
Computerlinguistik Maschinelle Übersetzung • Inversion Transduction GrammarEnglisch – Spanisch • Die Sätze aus dem Beispielkorpus Englisch – Spanischkönnen aber mit der ITG in verbundener Form abgelegt werden: • [S [NP Mary/María] • [VP [Negation didn´t/no] • [VP [V slap/dió una bofetada] • [PP [P _/a] • [NP [Det the/la] • [Nominal <[Adj green/verde] [N witch/bruja]>]]]]]
Computerlinguistik Maschinelle Übersetzung • Transduction Grammar • Ein in der verbundenen Form abgelegtes Beispielkorpus eignet sich in idealer Weise für die Nutzung in der beispielbasierten maschinellen Übersetzung, da mit diesem Korpus bei der Suche nach dem jeweils besten Match die Phrasengrenzen beachtet werden können.
Computerlinguistik Maschinelle Übersetzung • Transduction Grammar • Ein Vorgehen dieser Art erfordert jedoch einen großen Aufwand bei der Aufbereitung des bilingualen Korpus. • Man kann versuchen, diesen Aufwand zu verringern, indem man für die Sätze (beider Sprachen) des bilingualen Korpus syntaktische Analysen (mit einem Parser oder einem Chunker) erzeugt und dann versucht die Phrasen (Konstituenten) auf einander zu beziehen. Das wäre dann ein “Phrasenalignment”.
Computerlinguistik Maschinelle Übersetzung • Transduction Grammar • Arbeitet man mit Phrasen statt mit Wörtern, kann man für einen rein statistischen Ansatz dieselben Methoden anwenden, wie wir sie in Bezug auf Wörter kennengelernt haben. Im Prinzip kann man damit auch bessere Ergebnisse erzielen, da das Sprachmodell zuverlässiger ist. Der Nachteil liegt aber im Übersetzungsmodell, da es sehr viel unwahrscheinlicher ist, dass sich die Phrasen oder gar die 2- oder 3-Gramme von Phrasen in dem Korpus so vorfinden, wie sie für die Übersetzung benötigt werden. Transduktions-grammatiken sind also vor allem bei der EBMT einsetzbar.
Computerlinguistik Maschinelle Übersetzung • Phrasenalignment • Alignment kann nur gelingen, wenn die Texte tatsächlich Übersetzungen von einander sind. Man betrachte z.B. die Startseite der Universität Bonn auf Deutsch und auf Englisch. Sie sind hier: Startseite Die Universität Traditionell modern – die Universität Bonn Tradition und Modernität – das sind in Bonn keine Gegensätze. Weltweit anerkannte Spitzenforschung und ein historisches Ambiente prägen heute das Bild der Rheinischen Friedrich-Wilhelms-Universität Bonn. Sie ist heute mit rund 28.000 Studierenden eine der großen Universitäten in Deutschland. Als international operierende Forschungsuniversität …
Computerlinguistik Maschinelle Übersetzung • Phrasenalignment • Alignment kann nur gelingen, wenn die Texte tatsächlich Übersetzungen von einander sind. Man betrachte z.B. die Startseite der Universität Bonn auf Deutsch und auf Englisch. You are here: Home The University Welcome to the University of Bonn The University of Bonn was founded almost 200 years ago and is considered to be one of Germany's and indeed Europe's most important institutes of higher education. As home of learning to over 27,000 students, we enjoy an outstanding reputation both at home and abroad.
Computerlinguistik Maschinelle Übersetzung Sie ist heute mit rund 28.000 Studierenden eine der großen Universitäten in Deutschland. Als international operierende Forschungsuniversität mit vielen anerkannten Stärken verfügt sie im In- und Ausland über ein hohes wissenschaftliches Ansehen. As home of learning to over 27,000 students, we enjoy an outstanding reputation both at home and abroad.
Computerlinguistik Maschinelle Übersetzung Evaluation von Systemen zur Maschinellen Übersetzung Ein wichtiger, aber problematischer Aspekt von Maschineller Übersetzung ist deren Evaluation. Erst aufgrund einer guten Evaluation können Systeme miteinander verglichen werden. Dabei ist es insbesondere von Wichtigkeit, nach der Durchführung geringer Änderungen zu entscheiden, ob sich ein System durch die durchgeführte Änderung verbessert (oder wenigstens nicht verschlechtert) hat.
Computerlinguistik Maschinelle Übersetzung • Evaluation – Bewertungskriterien • grammatische Fehler • semantische Fehler • Wiedergabegenauigkeit („Fidelity“) • Adäquatheit = Vollständigkeit des Inhalts („Adequacy“) • Nutzbarkeit (für den vorgesehenen Zweck) („Informativeness“)
Computerlinguistik Maschinelle Übersetzung • Evaluation – Bewertungskriterien • nach Gesichtspunkten der kognitiven Güte und des Stils • Klarheit („Clarity“) • Natürlichkeit („Naturalness“) • Stil („Style“) • Flüssigkeit („Fluency“)
Computerlinguistik Maschinelle Übersetzung Evaluation Die genaueste Methode, die Resultate von Systemen zur Maschinellen Übersetzung zu evaluieren, besteht darin, diese Resultate von Menschen bewerten zu lassen. Dies kann etwa dadurch geschehen, dass die Bewerter der Übersetzung einen Güte-Wert (etwa zwischen 0 und 5) zuordnen, oder dadurch, dass man etwa zu dem Kriterium „Fluency“ die Lesezeit misst.
Computerlinguistik Maschinelle Übersetzung Evaluation Man kann aufwändigere Tests durchführen, etwa so genannte „cloze tasks“ (Taylor, 1953), wobei in der Übersetzung Wörter durch Blanks ersetzt werden, die dann durch die bewertenden Personen erraten werden müssen. Eine andere, ebenfalls aufwändige Art der Evaluation ist die Durchführung eines „Editing“ und die Messung der damit verbundene „Kosten“ (in Zeit, in Anschlägen, in Anzahl der Wortänderungen etc.).
Computerlinguistik Maschinelle Übersetzung Evaluation Generell ist die Evaluation von Übersetzungen durch den Menschen aufwändig. Da Evaluationen aber unter Umständen sehr häufig durchgeführt werden sollen, etwa nach jeder minimalen Änderung eines Übersetzungssystems, stellt sich die Frage, ob die Evaluation nicht auch automatisiert werden kann. Automatisierte Evaluation ist schnell, billig und wiederholbar.
Computerlinguistik Maschinelle Übersetzung Evaluation Es wurden mehrere Methoden entwickelt, mit denen Übersetzungen automatisiert evaluiert werden können.Bekannte Evaluations-Metriken und mit ihnen verbundene Methoden sind BLEU, NIST, TER, Precision- und Recall-Messungen sowie METEOR. Alle diese Methoden beruhen auf der Annahme, dass eine Übersetzung um so besser ist, je mehr sie einer Übersetzung durch den Menschen gleicht: „The closer a machine translation is to a professional human translator, the better it is.“ (Papineni et al., 2002, S. 311).
Computerlinguistik Maschinelle Übersetzung Wir betrachten im Folgenden, wie BLEU (Papineni et al., 2002) funktioniert. BLEU Für die Evaluation benötigt man eine Metrik und ein Korpus von Übersetzungen, die durch einen Menschen getätigt wurden. Unter Umständen ist es sinnvoll, für jeden zu übersetzenden Satz mehrere (gute) menschliche Übersetzungen anzugeben, da es oft eben mehrere gute Übersetzungen gibt.
Computerlinguistik Maschinelle Übersetzung BLEU Grundlage für alle Metriken ist die Präzision (precision). Dabei zählt man wie viele der Wörter einer vorgeschlagenen Übersetzung sich auch in einer der menschlichen Übersetzungen finden lassen. Diese Anzahl teilt man dann noch durch die Anzahl der Wörter, aus der die vorgeschlagene Übersetzung besteht.
Computerlinguistik Maschinelle Übersetzung BLEU Die Präzision ist für sich genommen problematisch, da sie etwa für den Übersetzungsvorschlag „the the the the the the the“ bei der damit zu vergleichenden menschlichen Übersetzung „the white cat sits on the mat“ den Wert 7/7 = 1 (= Idealwert) liefert. BLEU betrachtet daher die „modifizierte Unigramm-Präzision“, die die Anzahl der Treffer, die ein einzelnes Wort erzielen kann, auf die Anzahl begrenzt, mit der das Wort in der menschlichen Über-setzung auftritt. Sie ist im o.a. Fall 2/7.
Computerlinguistik Maschinelle Übersetzung BLEU BLEU nutzt als Metrik die „modifizierte n-Gramm-Präzision“ (modified n-gram precision) für n=1, n=2, n=3 und manchmal dazu noch n=4. Diese werden dann über ihr geometrisches Mittel verknüpft. Die modifizierten n-Gramm-Präzisionen werden auch als p1, p2, p3, p4 usw. bezeichnet.
Computerlinguistik Maschinelle Übersetzung BLEU Satz: The king‘s voice was choked with anger. Google: Die Stimme des Königs wurde mit Wut erstickt. Mensch 1: Des Königs Stimme war gepresst vor Wut. Mensch 2: Die Stimme des Königs war gepresst vor Wut. P1 = 4/7 P2 = 1/8 P3 = 0/7 P4 = 0/6 P1 = 5/8 P2 = 4/9 P3 = 3/8 P4 = 2/7
Computerlinguistik Maschinelle Übersetzung BLEU Es gibt noch ein weiteres Problem, das man beachten muss und das BLEU berücksichtigt. Dies ist das Problem der zu kurzen Übersetzungsvorschläge. Es muss verhindert werden, dass ein Übersetzungsvorschlag wie „the white cat sits on the mat“ für „the white cat sits on the mat and observes the dog in the garden“ den Idealwert 1 zugesprochen bekommt. Dies ist ein Abdeckungsproblem (Recall Problem).
Computerlinguistik Maschinelle Übersetzung BLEU – Precision – Recall Im Gegensatz zur Präzision, bei der die Anzahl der korrekten Wörter durch die Anzahl der Wörter geteilt wird, die in der vorgeschlagenen Übersetzung stehen, wird für den Recall-Wert die Anzahl der korrekten Wörter durch die Anzahl der „erwarteten“ Wörter geteilt. „the white cat sits on the mat“ „the white cat sits on the mat and observes the dog in the garden“ Precision: 7/7 = 1 Recall: 7/14 = 0.5
Computerlinguistik Maschinelle Übersetzung BLEU – Precision – Recall – F-measure Der Precision-Wert und der Recall-Wert können zu einem Wert verrechnet werden, der „F-measure“ (F-Maß) genannt wird (vgl. dazu Jurafsky & Martin, 2009, S. 489). FBeta = ( (Beta2 + 1) · Precision · Recall ) / ( Beta2· Precision + Recall ) Ein Wert von Beta über 1 gewichtet den Recall-Wert stärker als den Precision-Wert, wohingegen ein Wert von Beta unter 1 den Precision-Wert stärker gewichtet.
Computerlinguistik Maschinelle Übersetzung BLEU – Precision – Recall – F-measure Bei gleicher Gewichtung ist Beta = 1, also gilt: F1 = ( 2 · Precision · Recall ) / ( Precision + Recall ) Genutzt wird auch F3 = Fmean = ( 10 · Precision · Recall ) / ( 9 · Precision + Recall )
Computerlinguistik Maschinelle Übersetzung BLEU BLEU geht zur Behandlung des Recall-Problems einen anderen Weg. Es nutzt den so genannten „brevity penalty factor“ (BP). Dabei wird die Länge des Übersetzungsvorschlags ( c) durch die Länge der menschlichen Übersetzung ( r) geteilt. Ist c > r, so ist BP = 1. Ist c ≤ r, so ist BP = e(1- r/c) BLEU = BP · exp( 0.25·log p1 + 0.25·log p2 + 0.25·log p3 + 0.25·log p4 )
Computerlinguistik Maschinelle Übersetzung BLEU BLEU wurde gegen Evaluationen getestet, die von Menschen durchgeführt wurden. Die Menschen haben dabei Übersetzungs-vorschläge auf einer Skala von 0 bis 5 bewertet. Es gab eine gute Korrelation zwischen den BLEU-Werten und den Bewertungen durch die Menschen. Diese Korrelation kann allerdings noch verbessert werden, worauf die Metriken TER, NIST und vor allem METEOR abzielen.
Computerlinguistik Maschinelle Übersetzung WER und TER Die Word Error Rate (WER) (Nießen et al., 2000) und die Translation Error Rate (TER) (Snover et al., 2006) beruhen auf der Levenshtein-Distanz auf Wortbasis zwischen der durch das System vorgeschlagenen Übersetzung und der Vergleichsübersetzung durch den Menschen. WER zählt Ersetzungen, Einfügungen und Löschungen; TER nutzt außerdem einen „shift“-Wert.
Computerlinguistik Maschinelle Übersetzung WER und TER WER = (Ersetz + Lösch + Einfüg) / (Ersetz + Lösch + Korrekt) Google Die Stimme des Königs wurde mit Wut erstickt. (3 Löschungen ) Des Königs wurde mit Wut. (2 Ersetzungen ) Des Königs war vor Wut. (2 Einfügungen ) Mensch Des Königs Stimme war gepresst vor Wut. WER = 7/8 (Ein niedriger Wert ist besser.)
Computerlinguistik Maschinelle Übersetzung WER und TER TER = (Ersetz + Lösch + Shift + Einfüg) / (Ersetz + Lösch + Shift + Korrekt) Google Die Stimme des Königs wurde mit Wut erstickt. (2 Löschungen ) Stimme des Königs wurde mit Wut. (2 Ersetzungen ) Stimme des Königs war vor Wut. (1 Einfügung und 1 Shift ) Mensch Des Königs Stimme war gepresst vor Wut. TER = 6/8 (Shifts kosten bei TER einen Punkt, aber bei WER 2 Punkte.)
Computerlinguistik Maschinelle Übersetzung WER und TER Metriken, die auf Precision und Recall beruhen, auch BLEU, ignorieren, wenn die Reihenfolge der Wörter zwischen vorgeschlagener Übersetzung und menschlicher Übersetzung abweicht; WER “bestraft” solche Abweichung massiv, TER etwas weniger. Es kann von den Sprachpaaren abhängen, welcher Ansatz adäquater ist.
Computerlinguistik Maschinelle Übersetzung NIST NIST beruht auf BLEU. Der Name erklärt sich daher, dass NIST vom National Institute of Standards and Technology eingeführt wurde. BLEU berücksichtigt die modifizierten n-Gramm Präzisionen in gleicher Weise. In NIST werden die höheren stärker gewichtet, wobei auch modifizierte 5-Gramme mit in die Berechnung einbezogen werden.
Computerlinguistik Maschinelle Übersetzung NIST Außerdem wird in NIST der „brevity penaltiy“-Wert etwas anders berechnet (vgl. dazu die Abbildung 4 aus Doddington, 2002).
Computerlinguistik Maschinelle Übersetzung METEOR METEOR (Banerjee & Lavie, 2005) stellt eine interessante Alternative zum BLEU-Wert und zum NIST-Wert dar. Für METEOR werden nicht die tatsächlichen Wortformen, sondern nur die Wortstämme berücksichtigt. Zudem werden Synonym-Listen genutzt. Mit diesen Abänderungen zielt METEOR stärker auf die inhaltliche Übereinstimmung. Am Samstag begegnete Angela ihrer wichtigsten Ministerin. Am Sonnabend trifft Angela ihren wichtigsten Minister.
Computerlinguistik Maschinelle Übersetzung Korrelation zwischen Metriken und menschlicher Bewertung System ID Correlation BLEU 0.817 NIST 0.892 Precision 0.752 Recall 0.941 F1 0.948 Fmean 0.952 METEOR 0.964 Die Tabelle entstammt Banerjee & Lavie, 2005, S. 69, und belegt, dass der METEOR-Wert näher an den Güteabschätzungen von Menschen liegt als etwa der BLEU-Wert.
Computerlinguistik Literatur • Banerjee, S. & Lavie, A. (2005). METEOR: An automatic metric for MT evaluation with improved correlation with human judgements. Proceedings of the ACL 2005. http://www.mt-archive.info/ACL-2005-Banerjee.pdf • Cherry, C. & Lin, D. (2007). Inversion Transduction Grammar for Joint Phrasal Translation Modeling. Proceedings of SSST, NAACL- HLT 2007 / AMTA Workshop on Syntax and Structure in Statistical Translation (pp. 17–24), Rochester, NY, April 2007. http://www.aclweb.org/anthology-new/W/W07/W07-0403.pdf
Computerlinguistik Literatur • Doddington, G. (2002). Automatic evaluation of machine translation quality using n-gram co-occurrence statistics. In: Marcus, M. (Ed.), Proceedings of the 2nd International Conference on Human Language Technology Research. http://www.itl.nist.gov/iad/mig//tests/mt/doc/ngram-study.pdf • Jurafsky, D. & Martin, J.H. (2009). Speech and Language Processing, Kapitel 25: Machine Translation. Upper Saddle River, NJ; Pearson Education International, 2. Auflage. • Martin, George R.R. (?). The Winds of Winter. Bantam Books.
Computerlinguistik Literatur • Melamed, D. (2003). Multitext grammars and synchronous parsers. Proceedings of the Human Language Technology Conference and the North American Association for Computational Linguistics (HLT-NAACL) (pp. 158-165). http://nlp.cs.nyu.edu/pubs/papers/melamed-naacl03.pdf • Nießen, S., Och, F.J., Leusch, G. & Ney, H. (2000). An evaluation tool for machine translation. Proceedings of the 2nd International Conference on Language Resources and Evaluation (pp. 39-45). http://www.mt-archive.info/LREC-2000-Niessen.pdf
Computerlinguistik Literatur • Papineni, K., Roukos, S., Ward, T. & Zhu, W.-J. (2002). BLEU: A method for automatic evaluation of Machine Transation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL) (pp. 311-318). http://www1.cs.columbia.edu/nlp/sgd/bleu.pdf • Snover, M., Dorr, B., Schwartz, R. Micciulla, L. & Makhoul, J. (2006). A study of translation edit rate with targeted human annotation. Proceedings of the 7th Conference of the Association for Machine Tanslation in the Americas. http://www.mt-archive.info/AMTA-2006-Snover.pdf
Computerlinguistik Literatur • Taylor, W.L. (1953). Cloze procedure: A new tool for measuring readability. Journalism Quaterly, 30, 415-433. • Wu., D. (1997). Stochastic inversion transduction grammars and bilingual parsing of parallel corpora. Computational Linguistics, 23, 377-403.