1 / 45

Introduction

yepa
Download Presentation

Introduction

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Vers une analyse syntaxique à granularité variable Thèseprésentée pour l’obtention du diplôme de Doctorat de l’Université de Provence - Aix-Marseille Ispécialité Informatique par Tristan Vanrullensous la direction de Philippe Blacheen présence des membres du juryPatrick ParoubekMonique RolbertLaurent RomaryEric Villemonte de la Clergerie Eric WehrliLaboratoire Parole et Langage d’Aix-en-Provence – CNRS UMR 6057 École Doctorale de Mathématiques et Informatique de Marseille

  2. Introduction Construire un modèle et des outils d’analyse qui permettent d’intégrer des données de la linguistique formelle en répondant aux besoins et problèmes actuels

  3. Problèmes actuels Situation • Robustesse (corpus tout venant) • Réutilisabilité (composants, ressources) [Villemonte de la Clergerie] [Romary] • Efficacité (complexité de l’information vs complexité du traitement) Linguistique Formelle et TALN • Fidélité théorique vs Visée applicative • Tenter de combiner les deux • Approche symbolique vs numérique • Approche symbolique basée sur les contraintes • Formalisme des Grammaires de Propriétés [Blache] • Évaluation des systèmes [Carroll][Paroubek] Besoins actuels • Analyse superficielle, profonde ou combinée [Hinrichs & Simov 04] • Ambiguïté / déterminisme • Analyse multi grammaticale et multimodale

  4. Granularité • Niveau de traitement des données d’entrée • Niveau de représentation de la sortie • Diversité des paradigmes interprétatifs • Syntaxe, sémantique, prosodie, pragmatique etc. • Multiplicité des interprétations dans un même paradigme interprétatif • Chunks, constructions, dépendances, etc. • Granularité variable • Sélection de granularité • dans une même interprétation / entre interprétations • Paramétrable • Guidée par le contexte Granularité variable

  5. Granularité variable Expressivité • Profondeur de l’analyse • plate / emboîtée • Diversité de l’analyse • ambiguïté / déterminisme • Diversité interprétative • Multi grammaticalité • Multi modalité Robustesse Granularité variable • Tolérance à l’agrammaticalité • Informativité préservée Modularité • Processus redéfinissables • Spécifications hors logiciel • Généricité des formats Réflexivité • Système auto adaptable • Décisions révisables

  6. Expressivité Robustesse • Profondeur de l’analyse • plate / emboîtée • Diversité de l’analyse • ambiguïté / déterminisme • Diversité interprétative • Multi grammaticalité • Multi modalité • Tolérance à l’agrammaticalité • Informativité préservée • Modèle théorique • Grammaires de Propriétés • Spécification sémantique • Représentation (graphes) • Implantation • Paradigme Orienté Objet • Mécanismes de contrôle • Représ. des connaissances Modularité Réflexivité • Processus redéfinissables • Spécifications hors logiciel • Généricité des formats • Système auto adaptable • Décisions révisables

  7. Sommaire • Modèle théorique • Implantation • Evaluation • Conclusion

  8. Modèle Théorique Grammaires de Propriétés Spécification sémantique Modèle de représentation Graphes Mesure de contrôle Densité de satisfaction

  9. Grammaire Catégorie Catégorie Catégorie etc. Propriétés Propriétés Propriétés C1 C2 C1/C2 C3/C2 C1 C3 C3/C2 C1/C3 C1 C2/C3 C1/C5 C4 • Formalisme basé sur les contraintes [Blache 01] • - Une grammaire représente l’information syntaxique par un ensemble de contraintes (propriétés) • Une caractérisation est un état des propriétés par rapport à l’input • Propriétés • - Contraintes typées • - Portant sur des catégories • - Caractéristiques de catégories • - Indépendantes, non hiérarchisées, peuvent être relâchées Les Grammaires de Propriétés (GPs)

  10. Grammaire Catégorie Catégorie Catégorie etc. Propriétés Propriétés Propriétés P+ P0 P+ P0 P- P- P0 P+ Input • Caractérisation • - Grammaticalité  Reconnaissance • - État des contraintes évaluées ou non (P-, P+, P0) • - Possibilité de relâcher tout ou partie des contraintes Les Grammaires de Propriétés (GPs)

  11. Présence ou non d’un élément dans l’input Nombre de propriétés simultanément satisfiables Les Grammaires de Propriétés (GPs) Ordre des éléments dans l’input Correspondance de traits Nombre de fois qu’une propriété est satisfiable

  12. Termes : • catégories analysées • Propriétés : • relations sur les termes • Satisfaisabilité d’une contrainte: • - Fonction de la disponibilité des termes • - Fonction des traits et du rang des termes • Cardinalité d’un type de contrainte: • Nombre de propriétés de même type pouvant être simultanément satisfaites • Capacité d’une contrainte: • Nombre de fois qu’une même propriété peut être satisfaite • Termet : • Disponibilité w • rangDeb, rangFin • Ensemble de traits • Propriété P : • Arité : [1;∞] • Satisfaction : • Disponibilité d(w1,warité) • Satisfaisabilité s(t1,tarité) • Cardinalité : [0;∞] • Capacité : [0;∞] Spécification sémantique des GPs

  13. Unicité Symbole 1 Arité 1 Satisfaction d(w1)=w1 et s(t1)=vrai Cardinalité [0; ∞] Capacité [0;1] Obligation Symbole + Arité 1 Satisfaction d(w1)=w1 et s(t1)=vrai Cardinalité [1; ∞] Capacité [0;1] Spécification sémantique des GPs Linéarité Symbole << Arité 2 Satisfaction d(w1, w2)= w1w2 s(t1, t2)= t1.fin < t2.debut Cardinalité [0; ∞] Capacité [0; ∞] Dépendance Symbole ~~ Arité 2 Satisfaction d(w1, w2)= w1w2 s(t1, t2)= t1.trait < t2.trait Cardinalité [0; ∞] Capacité [0; ∞] Exigence Symbole => Arité 2 Satisfaction d(w1, w2)= w1 s(t1, t2)= 12 Cardinalité [0; ∞] Capacité [0; ∞] Exclusion Symbole # Arité 2 Satisfaction d(w1, w2)= w1 s(t1, t2)=1¬2 Cardinalité [0; ∞] Capacité [0; ∞]

  14. Spécification Sémantique + Grammaire  Caractérisation Modèle de graphes

  15. Hypergraphe permettant l’analyse Modèle de graphes

  16. Modèle de graphes

  17. Densité de satisfaction • Intérêt: • Contrôler le nombre de contraintes satisfaites et non satisfaites • Mesurer la qualité d’une caractérisation et d’une construction • Établir un seuil de filtrage • Elle est évaluée et propagée dans le graphe de caractérisation • Densité de satisfaction locale (DSL) • Qualité immédiate d’une caractérisation • Densité de satisfaction propagée ( DSP ): • - Qualité historique d’une caractérisation Mesure de contrôle

  18. propriétés • catégories Mesure de contrôle

  19. Niveau 2 Phrase Catégories DSL=0.8 / DSP=0.718 Unicit é Lin é arit é Exigence D é pendance Types de propriété DSL=1.0 DSL=1.0 DSL=1.0 DSL=0.5 DSP=.83 DSP=.92 DSP=.92 DSP=0.46 ~~ 1 => << ~~ Propriétés Nombre Genre Niveau 1 SN SV Catégories [F é m., Sing.] [ - , Plur.] DSL=0.83 /DSP=0.83 DSL=1.0 /DSP=1.0 Unicit é Lin é arit é D é pendance Exigence Obligation Unicit é Obligation Types de propriété DSL=1.0 DSL=1.0 DSL=0.5 DSL=1.0 DSL=1.0 DSL=1.0 DSL=1.0 DSP=1.0 DSP=1.0 DSP=0.5 DSP=1.0 DSP=1.0 DSP=1.0 DSP=1.0 Propriétés ~~ + 1 1 => << ~~ + Nombre Genre Étiquetage D é terminant Nom Verbe [Masc., Sing.] [Commun,F é m., Sing.] [ind.,pr é s.,3p.,Plur.] Input le peinture s è chent DSP = 0.71 DSL = 0.8 DSP= 0.46 DSL = 0.5 Exemple DSP = 0.83 DSP = 1 DSL = 0.83 DSL = 1 DSP = 0.5 DSL = 0.5

  20. Implantation

  21. Plateforme Accolade Module Etiqueteur Module Analyseur Module Dictionnaire Lexique N-Grammes Grammaire Manutention Expériences Linguistiques Applications TALN Architecture LPL-Suite • SeedParser • Deep parser • Shallow Parser • Chunker Module Segmenteur Boite à outils : Fréquenceur, Phonétiseur, Apprentissage, Formatage. Formats DTD + XML Textes

  22. Préanalyse • 1. Pour chaque item de l’input • 1.a. Créer une instance de nœud catégoriel associée à une arborescence de traits • 1.b. Attribuer un numéro de rang à ce nœud • Caractérisation • Choisir une souche de caractérisation SC • Tant qu’une création de nœuds est possible • 2.a. Pour chaque élémentE de la souche • 2.a.i Évaluer les propriétés P liées à E • 2.a.ii Si P  (P+ P-), instancierP Algorithmes d’analyse dans SeedParser

  23. Algorithmes d’analyse dans SeedParser • Projection • Choisir une souche de projection SP • Tant qu’une création de nœuds catégoriels a lieu • 2.a Pour chaque catégorieC de la grammaire • 2.a.i Construire un graphe prototype C’ • 2.a.ii Pour tout sous-ensemble cohérent S de SP • - Si S satisfait les propriétés de C • Et si S supporte les seuils de densité Alors • - créer une instance C’’ de C’ • - connecter C’’ à la caractérisation • Déterminisation en fin d’analyse • Lister toutes les catégories en conflit{cliques} • Dans chaque clique C • 2.a Chercher un ensemble de catégories E qui • maximise la somme des densités de satisfaction • 2.b Supprimer les autres catégories de la clique Déterminisation temps réel

  24. Modules et ressources • dictionnaire • lexique • - étiqueteur et analyseurs • spécification des GPs • GPs • Analyse syntaxique • pas à pas / par lot • paramétrage temps réel • expérimentation Accolade {GUI de LPLSuite}

  25. Évaluation

  26. C(Nmots)= k x Nmots C(Nmots)= k x C x N2mots Shallow parser Chunker C(Nmots)= k x C x N2,4mots C(Nmots)= k x C x N2,3mots Deep parser Seed parser Complexité des analyseurs • Conclusions • Polynomialité des traitements: • [Vashtisht03]Les phrases structurées guident l’analyse. • - Grande constante multiplicative: • Réductible par précompilation de la spécification sémantique

  27. texte parser parser parser parseur Texte analysé Texte analysé Texte analysé Texte analysé • Sans ressources de référence • - multiplexage de plusieurs analyseurs • amélioration empirique des grammaires • correction des analyseurs Qualité des analyseurs paramètres Texte analysé Multiplexeur Autres données -erreurs -statistiques

  28. Moyenne des scores par catégorie de Fmesure floue • Avec références • Parseurs dans la campagne d’évaluation EASY: • 14 participants • 1 Million de mots à analyser • 1 référence annotée manuellement • Plusieurs scores par participant • Précision / Rappel / Fmesure • Correspondance à la référence stricte ou Floue (1) • Fmesure(Shallow Parser) = 79.7 % • Fmesure(Deep Parser) = 85.9 % • Fmesure(Seed Parser) = 82.5 % Qualité des analyseurs

  29. Deep Parser Shallow Parser Seed Parser Qualité des analyseurs

  30. Qualité des analyseurs Deep parser Seed parser Shallow parser

  31. Remarques • Influence de la chaîne de traitement • lexique  étiquetage  analyse • Différences de grammaires entre les parseurs • Différents processus de déterminisation • Comment évaluer la référence ? • ex: Vp vs Adj • Améliorations possibles • Réapprentissage pour l’étiqueteur • Correction des grammaires • Meilleur choix des seuils de densité • Évaluer les analyses ambiguës Interprétation

  32. Conclusion

  33. Expressivité Robustesse • Profondeur de l’analyse • plate / emboîtée • Diversité de l’analyse • ambiguïté / déterminisme • Diversité interprétative • Multi grammaticalité • Multi modalité • Tolérance à l’agrammaticalité • Informativité préservée • Modèle théorique • Grammaires de Propriétés • Spécification sémantique • Représentation (graphes) • Implantation • Programmation Objet • Mécanismes de contrôle • DTD + XML déterminisation Modularité Réflexivité • Processus redéfinissables • Spécifications hors logiciel • Généricité des formats • Système auto adaptable • Décisions révisables autodétermination

  34. Granularité variable: • - Formaliser et implanter le processus d’autodétermination • Approfondissement d’analyse en contexte • Automatique • Paramétrable • Améliorations possibles • Lexique / Dictionnaire • Étiquetage, grammaires et analyseurs  EASY • Complexité • Compilation des spécifications sémantiques • Optimisation des algorithmes • Corrélations linguistique / cognition • Importance relative des propriétés / justification cognitive? • Poids sur les contraintes perspectives

  35. Fin

  36. Application à la synthèse vocale • Application à la communication assistée • Précisions sur la spécification des GPs • Contraintes et propriétés vs CSP • Détails d’analyse • Autodétermination • Multi grammaticalité / Multi modalité • Remarques Générales Annexes

  37. Module Etiqueteur Module Chunker Module Prosodique Module Segmenteur N-Grammes Grammaire Module Phonétiseur Règles Lexique Règles [Di Cristo] Syntaix (1996) MBRola Texte Signal Pho. Voix (diphones) Syntaix (1996) Module Métrique

  38. MBRola Voix (diphones) Module Etiqueteur Module Analyseur LPL-Suite Module Dictionnaire Module Segmenteur Lexique Boite à outils: … Phonétiseur … N-Grammes Grammaire Syntaix (2005) Texte Signal Pho. Syntaix GUI Syntaix (2005) Module Prosodique Module Métrique Règles

  39. Plateforme de Communication Alternative • Prédiction d’un mot à partir de ses premières lettres et du contexte courant • Reformulation textuelle à partir d’icônes PCA

  40. Cardinalité de la propriété Précisions sur la spécification des GPs (non) disponibilité des élément décrits Capacité d’une propriété Rang des éléments Accords de traits

  41. Algorithme de SeedParser vs Moteur CSP • Un CSP généraliste résout des clauses • Littéraux, logique binaire, non arithmétiques • Reprogrammer un CSP spécifique aux GPs ? • Introduire une mesure variable de la satisfaisabilité • Arithmétiser les contraintes • Traiter la reconnaissance de traits hors satisfaction de contraintes • Traçabilité des caractérisations ? • Introduire une représentation sous forme de graphe par ex. • Autres algorithmes • - Deep Parser (arcs couvrants) • - Grammaires précompilées et shallow parsers (coins-gauches/droits) • Versions Prolog / CHR • SGBDR Résolution de contraintes avec les GPs

  42. Détails d’analyse

  43. Définir des critères de déclenchement • Dans des contextes trop interprétables • résorber l’ambiguïté • Dans des contextes trop agrammaticaux • faire apparaître une information minimale • La mesure de contrôle sera la densité de satisfaction • Définir un processus de révision de décisions • - Itérations convergentes • - Mesure / Filtre Passe Haut / Filtre Passe Bas Autodétermination

  44. Grammaire Syntaxique 1 Annotation Sémantique Grammaire Sémantique Annotation Morphosyntaxique Grammaire Syntaxique 2 Annotation pragmatique Grammaire Syntactico-sémantique Grammaire Syntaxique 3 Sémantique Syntaxe Pragmatique Prosodie Mimogestuel Annotation Phonétique Annotation gestuelle Annotation prosodique • GPs + spécification sémantique + modèle de graphes • Possibilité de faire coexister plusieurs spécifications sémantiques • Possibilité de faire cohabiter plusieurs grammaires en une seule • Interaction inter-grammaticale possible avec un marquage des grammaires (grammaires colorées) • Conflits au sein d’une même couleur • Collaboration entre couleurs Multigrammaticalité et multimodalité

  45. Quels nouveaux types de propriétés sont spécifiables ? • Facultativité • Interdiction • Contiguïté • Relations ternaires (coordination, apposition, etc.) • Quels types de propriétés ne peuvent être définis ? • - Contraintes lexicales • Contraintes de constituance indirecte • Certaines propriétés sont explosives • - Contraintes lacunaires (¬X) • Contraintes trop satisfiables • Caractérisation puis projection ? Remarques générales

More Related