390 likes | 654 Views
Intelligence Artificielle Traitement statistique des langues naturelles. Traduction de l ’Anglais vers l’Arabe. Rabih Mustapha. Traduction de l ’Anglais vers l’Arabe. Particularité de la langue arabe Quelques travaux faits dans ce domaine. Particularité de la langue arabe.
E N D
Intelligence ArtificielleTraitement statistique des langues naturelles Traduction de l’Anglais vers l’Arabe Rabih Mustapha
Traduction de l’Anglais vers l’Arabe Particularité de la langue arabe Quelques travaux faits dans ce domaine
Particularité de la langue arabe L’alphabet de la langue arabe compte 29 lettres 25 consonnes 3 voyelles longues une lettre particulière constituée de deux lettres (l’une consonne, l’autre voyelle longue)L’arabe s’écrit de droite à gauchenécessité d’algorithmes supplémentairesChangement de la forme des caractèresSelon la position au début, au milieu ou à la fin du motLes lettres généralement se lient entre elles sauf 6 qui ne se joignent pas à gauche
Particularité de la langue arabe Les unités significatives Un texte se découpe en éléments significatifs ‘‘ mot ’’ Un mot en arabe est compris entre deux séparateurs (blancs , virgule, … ) Le mot arabe s’écrit avec les consonnes, les voyelles longues et les signes auxiliaires
Particularité de la langue arabe On a 5 signes auxiliaires (voyelles brèves) qui s’écrivent au dessus et au dessous des lettresA= ــــَـ , I =ـــِـ , O =ــــُــ , ـــْــــ , ــــــّـ sont nécessaires à la lecture et à la compréhension correcte d’un texte Sans ces 5 signes on risque d’avoir beaucoup d’ambiguïtéÀ l’intérieur du mot, ils permettent de différencier 2 mots ayant le même squelette consonantique كَتَبَest différent de كُتِبَ À la fin d’un mot, ils permettent de reconnaître son mode.
Particularité de la langue arabe Racines et schème Un trait essentiel de la structure de l’arabe est que mis à part quelques particules, toute forme linguistique dépourvue de ses éléments flexionnels peut s’analyser fondamentalement en une racine et un schème. Les racines des mots arabes sont constituées généralement de consonnes et exprimant la notion de base.À partir de cette racine tous les autres concepts liés à cette notion sont dérivés selon les schèmes qui sont finis.
Particularité de la langue arabe Racines et schème (suite) Voyons un exemple Soit la racine de référence R1R2R3, et la racine qui exprime la notion ‘’écrire’’ كتب Quand on ajoute A-A-A dans l’ordre à la racine, on peut exprimer le verbe au passé pour la troisième personne du singulier au masculin R1R2R3 كتب R1A-R2A-R3A كَتَبَ Quand on ajoute A – I, on exprime l’agent ou l’acteur du verbe(ici écrivain)R1R2R3 كتب R1A-R2I-R3 كاتِب Quand on ajoute MA-U, on exprime celui ou ce qui a subi l’action. A-A-A A-I
Particularité de la langue arabe Racines et schème (suite) De cette façon on peut déduire presque tous les mots en arabeD’une façon générale, les étapes à suivre sont : 1- Choisir une racine 2- Choisir une notion parmi celles permises (acteurs par exemple) 3- Choisir la forme correspondante (schème) 4- Utiliser ce schème pour produire le mot voulu Cette caractéristique a été très utilisée par les équipes qui ont développé beaucoup de logiciels dans les domaines (automatisation de la langue arabe, conception des analyseurs automatiques pour la langue arabe et lemmatisation) et j’estime qu’ils ont bien profité de cette caractéristique pour la traduction de et vers l’arabe aussi.N.B. La majorité des verbes arabes ont une racine composée de 3 consonnes et rarement au delà de ce nombre.
Particularité de la langue arabe Structure d’un mot graphique maximal Le mot graphique maximal est le segment graphique délimité par deux séparateurs successifs, portant toutes les marques formelles (éléments flexionnels) qu’il est capable de porter selon sa catégorie.N.B. Les éléments flexionnels sont des indices d’aspect, de mode, de voix, de personne, de nature, de genre, de nombre,… utilisés pour la conjugaison du verbe et pour la déclination du nom .Les Antéfixes sont des prépositions ou des conjonctions.Les préfixes et suffixes expriment les traits grammaticaux et indiquent les fonctions : cas du nom, mode du verbe et les modalités (nombre, genre, personne,…)Les post fixes sont des pronoms personnels.
Particularité de la langue arabe Structure d’un mot graphique maximal (suite)Exemple récapitulatif أ تَتَذَكَّرُونَنَا • Ce mot exprime la phrase en français : ‘’ Est-ce que vous vous souvenez de nous ? ’’La segmentation de ce mot donne les constituants suivants : Antéfixe : أ conjonction d’interrogation Préfixe :ت préfixe verbal du temps de l’inaccompli. Suffixe : ونsuffixe verbal exprimant le pluriel Post fixe : نَاpronom suffixe complément du nomCorps schématique : ‘’ تَذَكَّر ’’ dérivé de la racine : ذكرselon le schème ‘’ تفعّل’’
Particularité de la langue arabe Catégories des mots L’arabe considère 3 catégories de mots Le verbe : entité exprimant un sens dépendant du temps, c’est un élément fondamental auquel se rattache directement ou indirectement les divers mots qui constituent l’ensemble Le nom : l’élément désignant un être ou un objet qui exprime un sens indépendant du temps Les particules : entités qui expriment un sens dépendant de leur compréhension
Particularité de la langue arabe Catégorie des verbes On distingue deux grandes catégories du verbe arabeLe verbe ‘’original’’ :toutes ses lettres sont originales, c.a.d ses lettres sont des radicales fortes (ne subissent aucun changement lors de la déclination ou la formation des mots).Les verbes originaux se décomposent en deux grandes classes :- Les originaux terneres: ce sont des verbes dont la racine est composée de 3 lettres(6 schèmes différents)- Les originaux quadriliteres : ces verbes sont composés de 4 lettres et se présentent sous un seul schème.Le verbe ‘’augmenté’’ :dont une ou plusieurs lettres ne sont pas originales.Ils sont décomposés également en 2 classes. - Verbes augmentés à partir d’un verbe original ternere, - Verbes augmentés à partir d’un verbe original quadrilitere.
Particularité de la langue arabe La conjugaison des verbes Les temps sont les formes que prend le verbe pour indiquer le moment de la durée ou se situe l’action.La langue arabe dispose de 3 temps de conjugaison. - L’accompli, - L’inaccompli, - L’impératif.La conjugaison des verbes dépend de plusieurs facteurs: - Le facteur temps (accompli, inaccompli, impératif). - Le nombre de sujet (singulier, duel, pluriel) - Le genre du sujet (masculin, féminin) - La personne(première, deuxième et troisième personne) - Le mode (actif, passif).Ces facteurs influencent sur la forme syntaxique du verbe, le corps schématique reste constant tandis que les éléments flexionnels changent d’un temps à un autre et d’un genre à un autre…
Particularité de la langue arabe Les noms Sont de deux catégories : - Noms dérivés : dérivés de la racine verbale, - Noms primitifs : le cas de noms propres, noms communs, et des noms qui sont empruntés des langues étrangères. Les noms arabes peuvent être déterminés ou non déterminés. Ils sont déterminés s’ils sont dotés d’un préfixe de détermination ou suivis d’un complément du nom.
Particularité de la langue arabe Les noms (Suite) La déclination des noms arabes suit certaines règles qui sont :- le féminin est obtenu par l’ajout d’un suffixe ‘’ ة’’- le duel est obtenu par ajout d’un suffixe de dualité ‘’ ين ان’’- le pluriel des noms arabes est l’un des trois cas suivants:- pluriel du masculin sain, obtenu par l’ajout d’un suffixe ‘’ ونين’’ - pluriel du féminin sain, obtenu par l’ajout d’un suffixe ‘’ ات’’- pluriel ‘’brisé’’, suit une diversité de règles complexes.
Particularité de la langue arabe Classification des mots On distingue 3 grandes classes des mots : 1- mot dérivé d’une racine : ces mots peuvent être soit des verbes soit des noms 2- mot outil : (préposition, conjonction, déterminent,…) 3- mot dit exceptionnel (nom propre, étranger,…) ce sont des mots qui ne sont pas issus d’une racine verbale
Particularité de la langue arabe Grammaire arabe La langue arabe dispose de deux types de phrases- Les phrases verbales - Les phrases nominalesCes deux types différent par leur syntaxe et leur sémantique.La syntaxe : les phrases verbales renferment un verbe, les phrases nominales en sont dépourvues, en outre, les phrases verbales débutent effectivement par un verbe, ce qui les rend désormais aisément identifiables.La sémantique : en général, les phrases verbales décrivent des actions ou des états variants tandis que les phrases nominales introduisent des actions et des états qui sont relativement continus sur une certaine période de temps
Travaux réalisés Vue générale sur le marchéManque de ressources dans le domaine de traduction de et vers l’arabe : - Manque de spécialistes qui s’intéressent à ce domaine de recherche. - Manque de textes parallèles anglais/arabe
Travaux réalisés Quelques produits- Identificateur de la langue du texte : Rosette language identifier.- Dictionnaires : ‘’almisbar’’- Traducteurs : ‘’An-Nakel’’, ‘’ajeeb’’, ‘’almisbar’’
Travaux réalisés Identificateur de la langue du texte : Rosette language identifier- Produit par BASIS Technology- peut identifier jusqu’à 35 langues dont la langue arabe- utilise l’analyse statistique, ne contient aucun dictionnaire.
Travaux réalisés Identificateur de la langue du texte : Rosette language identifierExemple :Enter text:Result :
Travaux réalisés - Dictionnaires : ‘’almisbar’’
Traducteurs : ‘’An-Nakel’’ Produit par Translation.net aux états unis.- C’est un système payant (~1000 $)- capable de traduire 60.000 mots par heure selon la vitesse du processeur. - Il peut traduire un fichier complet, ou juste un paragraphe ou une phrase, traite les noms propres, manipule des abréviations et prend en considération les significations multiples.- Il a un dictionnaire de 150.000 entrées qui peuvent être étendues par l'utilisateur.- L'approche d'An-Nakel est différente de la traduction mot à mot.- Utilise la phrase comme unité de base de traduction dans un système de traitement basé sur le traitement des règles et une base de données de connaissances.
Traducteurs : ‘’An-Nakel’’ Pendant la traduction chaque phrase est analysée profondément, avec An-Nakel pour déterminer les différents syntagmes et des catégories des mots.- Les mots sont analysés dans le contexte et des liens sémantiques sont établis, ce qui donne une représentation interne de la phrase.- Le texte cible est produit en utilisant la méthode de transfert selon les règles de grammaire de la langue cible (arabe). - le texte arabe produit peut être écrit avec ou sans des voyelles.
Traducteurs : ‘’An-Nakel’’ Pendant la traduction chaque phrase est analysée profondément, avec An-Nakel pour déterminer les différents syntagmes et des catégories des mots.- Les mots sont analysés dans le contexte et des liens sémantiques sont établis, ce qui donne une représentation interne de la phrase.- Le texte cible est produit en utilisant la méthode de transfert selon les règles de grammaire de la langue cible (arabe). - le texte arabe produit peut être écrit avec ou sans des voyelles.
Traducteurs : ‘’almisbar’’ Traduction almisbar Traduction humaine
Traduction de l’anglais vers l’arabe Conclusion L’arabe peut être analysé automatiquement comme les langues européennes (règles bien précises). Peu de textes parallèles arabe-anglais, ce qui limite les travaux sur l’arabe surtout les méthodes statistiques. La langue arabe contrairement à la langue anglaise possède un système dérivationnel très riche, et c’est dans cette caractéristique que réside la difficulté car la plupart des systèmes utilisent les règles complexes de l’arabe. La communauté scientifique s’intéresse actuellement à l’arabe.
Traduction de l’anglais vers l’arabe Références ‘’Système d’analyse syntaxico-semantique du langage arabe non voyellé ‘’, Youcef KADRI ‘’Traitement automatique de la langue arabe ‘’, Chadia MOGHRABI. ‘’Traitement automatique de l’arabe voyellé ou non’’Fathi DEBILI. ‘’L'appariement : quels problèmes?’’ Fathi DEBILI ‘’Recent developments in Machine Translation, a review of the last five years’’ W.John Hutchins ‘’Contribution à l'étude et à la reconnaissance automatique de la parole en arabe standard.’’ M. DJOUDI ‘’Système d'analyse morphologique automatique de langue arabe’’. M. HASSOUN http://www.translation. net/an-nakel.html http://www.almisbar.com/salam_trans.html http://demos.basistech.com