E N D
Vers une analyse syntaxique à granularité variable Thèseprésentée pour l’obtention du diplôme de Doctorat de l’Université de Provence - Aix-Marseille Ispécialité Informatique par Tristan Vanrullensous la direction de Philippe Blacheen présence des membres du juryPatrick ParoubekMonique RolbertLaurent RomaryEric Villemonte de la Clergerie Eric WehrliLaboratoire Parole et Langage d’Aix-en-Provence – CNRS UMR 6057 École Doctorale de Mathématiques et Informatique de Marseille
Introduction Construire un modèle et des outils d’analyse qui permettent d’intégrer des données de la linguistique formelle en répondant aux besoins et problèmes actuels
Problèmes actuels Situation • Robustesse (corpus tout venant) • Réutilisabilité (composants, ressources) [Villemonte de la Clergerie] [Romary] • Efficacité (complexité de l’information vs complexité du traitement) Linguistique Formelle et TALN • Fidélité théorique vs Visée applicative • Tenter de combiner les deux • Approche symbolique vs numérique • Approche symbolique basée sur les contraintes • Formalisme des Grammaires de Propriétés [Blache] • Évaluation des systèmes [Carroll][Paroubek] Besoins actuels • Analyse superficielle, profonde ou combinée [Hinrichs & Simov 04] • Ambiguïté / déterminisme • Analyse multi grammaticale et multimodale
Granularité • Niveau de traitement des données d’entrée • Niveau de représentation de la sortie • Diversité des paradigmes interprétatifs • Syntaxe, sémantique, prosodie, pragmatique etc. • Multiplicité des interprétations dans un même paradigme interprétatif • Chunks, constructions, dépendances, etc. • Granularité variable • Sélection de granularité • dans une même interprétation / entre interprétations • Paramétrable • Guidée par le contexte Granularité variable
Granularité variable Expressivité • Profondeur de l’analyse • plate / emboîtée • Diversité de l’analyse • ambiguïté / déterminisme • Diversité interprétative • Multi grammaticalité • Multi modalité Robustesse Granularité variable • Tolérance à l’agrammaticalité • Informativité préservée Modularité • Processus redéfinissables • Spécifications hors logiciel • Généricité des formats Réflexivité • Système auto adaptable • Décisions révisables
Expressivité Robustesse • Profondeur de l’analyse • plate / emboîtée • Diversité de l’analyse • ambiguïté / déterminisme • Diversité interprétative • Multi grammaticalité • Multi modalité • Tolérance à l’agrammaticalité • Informativité préservée • Modèle théorique • Grammaires de Propriétés • Spécification sémantique • Représentation (graphes) • Implantation • Paradigme Orienté Objet • Mécanismes de contrôle • Représ. des connaissances Modularité Réflexivité • Processus redéfinissables • Spécifications hors logiciel • Généricité des formats • Système auto adaptable • Décisions révisables
Sommaire • Modèle théorique • Implantation • Evaluation • Conclusion
Modèle Théorique Grammaires de Propriétés Spécification sémantique Modèle de représentation Graphes Mesure de contrôle Densité de satisfaction
Grammaire Catégorie Catégorie Catégorie etc. Propriétés Propriétés Propriétés C1 C2 C1/C2 C3/C2 C1 C3 C3/C2 C1/C3 C1 C2/C3 C1/C5 C4 • Formalisme basé sur les contraintes [Blache 01] • - Une grammaire représente l’information syntaxique par un ensemble de contraintes (propriétés) • Une caractérisation est un état des propriétés par rapport à l’input • Propriétés • - Contraintes typées • - Portant sur des catégories • - Caractéristiques de catégories • - Indépendantes, non hiérarchisées, peuvent être relâchées Les Grammaires de Propriétés (GPs)
Grammaire Catégorie Catégorie Catégorie etc. Propriétés Propriétés Propriétés P+ P0 P+ P0 P- P- P0 P+ Input • Caractérisation • - Grammaticalité Reconnaissance • - État des contraintes évaluées ou non (P-, P+, P0) • - Possibilité de relâcher tout ou partie des contraintes Les Grammaires de Propriétés (GPs)
Présence ou non d’un élément dans l’input Nombre de propriétés simultanément satisfiables Les Grammaires de Propriétés (GPs) Ordre des éléments dans l’input Correspondance de traits Nombre de fois qu’une propriété est satisfiable
Termes : • catégories analysées • Propriétés : • relations sur les termes • Satisfaisabilité d’une contrainte: • - Fonction de la disponibilité des termes • - Fonction des traits et du rang des termes • Cardinalité d’un type de contrainte: • Nombre de propriétés de même type pouvant être simultanément satisfaites • Capacité d’une contrainte: • Nombre de fois qu’une même propriété peut être satisfaite • Termet : • Disponibilité w • rangDeb, rangFin • Ensemble de traits • Propriété P : • Arité : [1;∞] • Satisfaction : • Disponibilité d(w1,warité) • Satisfaisabilité s(t1,tarité) • Cardinalité : [0;∞] • Capacité : [0;∞] Spécification sémantique des GPs
Unicité Symbole 1 Arité 1 Satisfaction d(w1)=w1 et s(t1)=vrai Cardinalité [0; ∞] Capacité [0;1] Obligation Symbole + Arité 1 Satisfaction d(w1)=w1 et s(t1)=vrai Cardinalité [1; ∞] Capacité [0;1] Spécification sémantique des GPs Linéarité Symbole << Arité 2 Satisfaction d(w1, w2)= w1w2 s(t1, t2)= t1.fin < t2.debut Cardinalité [0; ∞] Capacité [0; ∞] Dépendance Symbole ~~ Arité 2 Satisfaction d(w1, w2)= w1w2 s(t1, t2)= t1.trait < t2.trait Cardinalité [0; ∞] Capacité [0; ∞] Exigence Symbole => Arité 2 Satisfaction d(w1, w2)= w1 s(t1, t2)= 12 Cardinalité [0; ∞] Capacité [0; ∞] Exclusion Symbole # Arité 2 Satisfaction d(w1, w2)= w1 s(t1, t2)=1¬2 Cardinalité [0; ∞] Capacité [0; ∞]
Spécification Sémantique + Grammaire Caractérisation Modèle de graphes
Hypergraphe permettant l’analyse Modèle de graphes
Densité de satisfaction • Intérêt: • Contrôler le nombre de contraintes satisfaites et non satisfaites • Mesurer la qualité d’une caractérisation et d’une construction • Établir un seuil de filtrage • Elle est évaluée et propagée dans le graphe de caractérisation • Densité de satisfaction locale (DSL) • Qualité immédiate d’une caractérisation • Densité de satisfaction propagée ( DSP ): • - Qualité historique d’une caractérisation Mesure de contrôle
propriétés • catégories Mesure de contrôle
Niveau 2 Phrase Catégories DSL=0.8 / DSP=0.718 Unicit é Lin é arit é Exigence D é pendance Types de propriété DSL=1.0 DSL=1.0 DSL=1.0 DSL=0.5 DSP=.83 DSP=.92 DSP=.92 DSP=0.46 ~~ 1 => << ~~ Propriétés Nombre Genre Niveau 1 SN SV Catégories [F é m., Sing.] [ - , Plur.] DSL=0.83 /DSP=0.83 DSL=1.0 /DSP=1.0 Unicit é Lin é arit é D é pendance Exigence Obligation Unicit é Obligation Types de propriété DSL=1.0 DSL=1.0 DSL=0.5 DSL=1.0 DSL=1.0 DSL=1.0 DSL=1.0 DSP=1.0 DSP=1.0 DSP=0.5 DSP=1.0 DSP=1.0 DSP=1.0 DSP=1.0 Propriétés ~~ + 1 1 => << ~~ + Nombre Genre Étiquetage D é terminant Nom Verbe [Masc., Sing.] [Commun,F é m., Sing.] [ind.,pr é s.,3p.,Plur.] Input le peinture s è chent DSP = 0.71 DSL = 0.8 DSP= 0.46 DSL = 0.5 Exemple DSP = 0.83 DSP = 1 DSL = 0.83 DSL = 1 DSP = 0.5 DSL = 0.5
Plateforme Accolade Module Etiqueteur Module Analyseur Module Dictionnaire Lexique N-Grammes Grammaire Manutention Expériences Linguistiques Applications TALN Architecture LPL-Suite • SeedParser • Deep parser • Shallow Parser • Chunker Module Segmenteur Boite à outils : Fréquenceur, Phonétiseur, Apprentissage, Formatage. Formats DTD + XML Textes
Préanalyse • 1. Pour chaque item de l’input • 1.a. Créer une instance de nœud catégoriel associée à une arborescence de traits • 1.b. Attribuer un numéro de rang à ce nœud • Caractérisation • Choisir une souche de caractérisation SC • Tant qu’une création de nœuds est possible • 2.a. Pour chaque élémentE de la souche • 2.a.i Évaluer les propriétés P liées à E • 2.a.ii Si P (P+ P-), instancierP Algorithmes d’analyse dans SeedParser
Algorithmes d’analyse dans SeedParser • Projection • Choisir une souche de projection SP • Tant qu’une création de nœuds catégoriels a lieu • 2.a Pour chaque catégorieC de la grammaire • 2.a.i Construire un graphe prototype C’ • 2.a.ii Pour tout sous-ensemble cohérent S de SP • - Si S satisfait les propriétés de C • Et si S supporte les seuils de densité Alors • - créer une instance C’’ de C’ • - connecter C’’ à la caractérisation • Déterminisation en fin d’analyse • Lister toutes les catégories en conflit{cliques} • Dans chaque clique C • 2.a Chercher un ensemble de catégories E qui • maximise la somme des densités de satisfaction • 2.b Supprimer les autres catégories de la clique Déterminisation temps réel
Modules et ressources • dictionnaire • lexique • - étiqueteur et analyseurs • spécification des GPs • GPs • Analyse syntaxique • pas à pas / par lot • paramétrage temps réel • expérimentation Accolade {GUI de LPLSuite}
C(Nmots)= k x Nmots C(Nmots)= k x C x N2mots Shallow parser Chunker C(Nmots)= k x C x N2,4mots C(Nmots)= k x C x N2,3mots Deep parser Seed parser Complexité des analyseurs • Conclusions • Polynomialité des traitements: • [Vashtisht03]Les phrases structurées guident l’analyse. • - Grande constante multiplicative: • Réductible par précompilation de la spécification sémantique
texte parser parser parser parseur Texte analysé Texte analysé Texte analysé Texte analysé • Sans ressources de référence • - multiplexage de plusieurs analyseurs • amélioration empirique des grammaires • correction des analyseurs Qualité des analyseurs paramètres Texte analysé Multiplexeur Autres données -erreurs -statistiques
Moyenne des scores par catégorie de Fmesure floue • Avec références • Parseurs dans la campagne d’évaluation EASY: • 14 participants • 1 Million de mots à analyser • 1 référence annotée manuellement • Plusieurs scores par participant • Précision / Rappel / Fmesure • Correspondance à la référence stricte ou Floue (1) • Fmesure(Shallow Parser) = 79.7 % • Fmesure(Deep Parser) = 85.9 % • Fmesure(Seed Parser) = 82.5 % Qualité des analyseurs
Deep Parser Shallow Parser Seed Parser Qualité des analyseurs
Qualité des analyseurs Deep parser Seed parser Shallow parser
Remarques • Influence de la chaîne de traitement • lexique étiquetage analyse • Différences de grammaires entre les parseurs • Différents processus de déterminisation • Comment évaluer la référence ? • ex: Vp vs Adj • Améliorations possibles • Réapprentissage pour l’étiqueteur • Correction des grammaires • Meilleur choix des seuils de densité • Évaluer les analyses ambiguës Interprétation
Expressivité Robustesse • Profondeur de l’analyse • plate / emboîtée • Diversité de l’analyse • ambiguïté / déterminisme • Diversité interprétative • Multi grammaticalité • Multi modalité • Tolérance à l’agrammaticalité • Informativité préservée • Modèle théorique • Grammaires de Propriétés • Spécification sémantique • Représentation (graphes) • Implantation • Programmation Objet • Mécanismes de contrôle • DTD + XML déterminisation Modularité Réflexivité • Processus redéfinissables • Spécifications hors logiciel • Généricité des formats • Système auto adaptable • Décisions révisables autodétermination
Granularité variable: • - Formaliser et implanter le processus d’autodétermination • Approfondissement d’analyse en contexte • Automatique • Paramétrable • Améliorations possibles • Lexique / Dictionnaire • Étiquetage, grammaires et analyseurs EASY • Complexité • Compilation des spécifications sémantiques • Optimisation des algorithmes • Corrélations linguistique / cognition • Importance relative des propriétés / justification cognitive? • Poids sur les contraintes perspectives
Application à la synthèse vocale • Application à la communication assistée • Précisions sur la spécification des GPs • Contraintes et propriétés vs CSP • Détails d’analyse • Autodétermination • Multi grammaticalité / Multi modalité • Remarques Générales Annexes
Module Etiqueteur Module Chunker Module Prosodique Module Segmenteur N-Grammes Grammaire Module Phonétiseur Règles Lexique Règles [Di Cristo] Syntaix (1996) MBRola Texte Signal Pho. Voix (diphones) Syntaix (1996) Module Métrique
MBRola Voix (diphones) Module Etiqueteur Module Analyseur LPL-Suite Module Dictionnaire Module Segmenteur Lexique Boite à outils: … Phonétiseur … N-Grammes Grammaire Syntaix (2005) Texte Signal Pho. Syntaix GUI Syntaix (2005) Module Prosodique Module Métrique Règles
Plateforme de Communication Alternative • Prédiction d’un mot à partir de ses premières lettres et du contexte courant • Reformulation textuelle à partir d’icônes PCA
Cardinalité de la propriété Précisions sur la spécification des GPs (non) disponibilité des élément décrits Capacité d’une propriété Rang des éléments Accords de traits
Algorithme de SeedParser vs Moteur CSP • Un CSP généraliste résout des clauses • Littéraux, logique binaire, non arithmétiques • Reprogrammer un CSP spécifique aux GPs ? • Introduire une mesure variable de la satisfaisabilité • Arithmétiser les contraintes • Traiter la reconnaissance de traits hors satisfaction de contraintes • Traçabilité des caractérisations ? • Introduire une représentation sous forme de graphe par ex. • Autres algorithmes • - Deep Parser (arcs couvrants) • - Grammaires précompilées et shallow parsers (coins-gauches/droits) • Versions Prolog / CHR • SGBDR Résolution de contraintes avec les GPs
Définir des critères de déclenchement • Dans des contextes trop interprétables • résorber l’ambiguïté • Dans des contextes trop agrammaticaux • faire apparaître une information minimale • La mesure de contrôle sera la densité de satisfaction • Définir un processus de révision de décisions • - Itérations convergentes • - Mesure / Filtre Passe Haut / Filtre Passe Bas Autodétermination
Grammaire Syntaxique 1 Annotation Sémantique Grammaire Sémantique Annotation Morphosyntaxique Grammaire Syntaxique 2 Annotation pragmatique Grammaire Syntactico-sémantique Grammaire Syntaxique 3 Sémantique Syntaxe Pragmatique Prosodie Mimogestuel Annotation Phonétique Annotation gestuelle Annotation prosodique • GPs + spécification sémantique + modèle de graphes • Possibilité de faire coexister plusieurs spécifications sémantiques • Possibilité de faire cohabiter plusieurs grammaires en une seule • Interaction inter-grammaticale possible avec un marquage des grammaires (grammaires colorées) • Conflits au sein d’une même couleur • Collaboration entre couleurs Multigrammaticalité et multimodalité
Quels nouveaux types de propriétés sont spécifiables ? • Facultativité • Interdiction • Contiguïté • Relations ternaires (coordination, apposition, etc.) • Quels types de propriétés ne peuvent être définis ? • - Contraintes lexicales • Contraintes de constituance indirecte • Certaines propriétés sont explosives • - Contraintes lacunaires (¬X) • Contraintes trop satisfiables • Caractérisation puis projection ? Remarques générales