1 / 33

Traitement de la Parole à la FPMs (1983-2000)

Traitement de la Parole à la FPMs (1983-2000). T. Dutoit. dutoit@tcts.fpms.ac.be. TCTS Lab Faculté Polytechnique de Mons Belgium. Plan. Intro : MULTITEL-TCTS Traitement de la parole : un problème en soi Synthèse de parole Pour quoi faire? Une brève histoire de la synthèse vocale

obelia
Download Presentation

Traitement de la Parole à la FPMs (1983-2000)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Traitement de la Paroleà la FPMs (1983-2000) T. Dutoit dutoit@tcts.fpms.ac.be TCTS Lab Faculté Polytechnique de Mons Belgium

  2. Plan • Intro : MULTITEL-TCTS • Traitement de la parole : un problème en soi • Synthèse de parole • Pour quoi faire? • Une brève histoire de la synthèse vocale • Le projet MBROLA • Une nouvelle révolution technologique • Reconnaissance de parole • Reconnaissance de parole? Pour quoi faire? • Une (très) brève histoire de la reconnaisance • Exemples : THISL, Démosthènes

  3. MULTITEL-TCTS (Théorie des Circuits et Traitement du Signal) 25 enseignants et chercheurs, depuis 1983 Contrats industriels (SAIT, L&H, ACEC, BRT) 1992-1995, projet ESPRIT HIMARNNET : reconnaissance de mots isolés, indépendant du locuteur, sur lignes téléphoniques (FPMs, L&H, ASCOM, TEDAS, EPFL) 1994 : Projet MBROLA en synthèse vocale 1995-2000 : création du groupe MULTITEL-TCTS, sur fonds Region Wallone/EEC dans le cadre d ’Objectif1THISL, RESPITE, SPRACH, DEMOSTHENES, EULER,W 1997 : Babel Technologies S.A

  4. So you thought speech processing was just a component of signal processing :) • Signals carry information (=unpredictable data) from source to receiver communication signals, images, biological signals, speech • Complexity of signals = f(complexity of source/receiver), and vice-versa • Speech is produced, perceived, and understood by the most complex of all machines • Speech is perceived and understood when produced (ex: deaf-mute; lombard effect) • What is predictible by the brain is not transmitted (“Please take a seat”)

  5. “These speech systems provide excellent examples for the study of complex systems, since they raise fundamental issues in system partitioning, choice of descriptive units, representational techniques, levels of abstraction, formalisms for knowledge representation, the expression of interacting constraints, techniques of modularity and hierarchy, techniques for characterizing the degree of belief in evidence, subjective techniques for the measurement of stimulus quality, naturalness and preference, the automatic determination of equivalence classes, adaptive model parameterization, tradeoffs between declarative and procedural representations, system architectures, and the exploitation of contemporary technology to produce real-time performance with acceptable cost.” (Allen, 1985)

  6. Un problème en soi • Traitement du signal • Acoustique • Phonétique (multilingue) • Linguistique informatique • Génie logiciel (!) CodageSynthèse Reconnaissance Compréhension (dialogue,traduction)

  7. TTS: What for ? • Telephone-based applications • Telecommunications ($) • Who’s calling • Integrated messaging (fax, email, answering machine) • Automatic reverse directory • Personal telephone attendant • Voice acces to databases (70% of calls require very little interactivity) • Price lists • Cultural events • Weather report

  8. TTS: What for ? • Man-machine communication • Multimedia • CDRoms • Talking books • Interactive games

  9. TTS: What for ? • Help to the disabled • Speech impairment • Artificial voice • Sight impairment • Automatic reading of electronic documents • Automatic reading of paper documents (with OCR)

  10. TTS: What for ? • Fundamental research

  11. A brief history of speech synthesis 1936 : Omer Dudley (Bell Labs) invents the VODER, 1st electric synthesizer ever

  12. A brief history of speech synthesis 1964, Rule-based synthesis(1979, MITTalk; 1981, KLATTALK; 1983, DECTalk) InfoVox (1983-95) Berkeley Speech Technology (1990)

  13. A brief history of speech synthesis Diphone-based synthesis Bell Labs (90s) CNET, 1989 LIMSI, Paris, 1989 FPMs, 1993

  14. The MBROLA Project

  15. The MBROLA Project (20 langues) > 80 persons actively involved Patented, 1996 ITEA 96 European Award Collaboration with Creation of Kluwer (97) - PPUR (2000) = DEMO

  16. TTS : Une révolution en marche • For automatic phonetization (L&H, ENST, Univ. Edinburgh, FPMs) • For automatic generation of intonation and phoneme duration (AT&T, FPMs, Univ. Aix, Univ. Edinburgh) • For automatic selection of units for concatenative synthesis (ATR, Univ. Edinburgh, AT&T, FPMs?) 1995-?: The database years

  17. TTS : A New Challenge Diphone-based synthesis

  18. TTS : A New Challenge Unit selection-based synthesis

  19. Software Eng. Concerns 1. Automatic phonetization 2. Automatic prosody generation 3. Speech synthesis

  20. Software Eng. Concerns • Signal Processing MATLAB • Speech Recognition HTK, WATSON STRUT,… • Speech Synthesis FESTIVAL, EULER 1. Future milestones in speech processing will come from labs with strong commitment to solid, portable, and extensible code; 2. Speech scientists and software engineers will soon be the same people. Software Complexity

  21. Software Eng. Concerns Modular TTS : DLL-based (.so on LINUX) 1.0 (May 99) : French - MS Windows 2.0 (Oct. 2000) : Mulitlingual - Win-Linux DEMO diphones User module Perl Scripts MBROLA PERL CARTs Preprocessor MLC F0 INIT Phonetizer Duration Rules Prosodic grouping

  22. La famille MBROLA

  23. The W Project Aid to the disabled • speech disabilities •  vocal tract prothesis • INTERFACE??? • visual disabilities • Automatic reading of electronic documents • + OCR for reading paper documents

  24. The W Project • A freely available, multilingual speaking machine for people with speech disabilities? • Freely available multilingual TTS : EULER/MBROLA • Freely available multilingual user interface? • Word prediction? No real keystroke reduction for real texts • Word contractions:GRADE II Braille (abbreviations for words and groups of letters; used for more then 100 years; methods available; exists for various languages). • From W to HOOK DEMO

  25. Reconnaissance de parole Extraction paramètres Entraînement des modèles Parole Dictionnaire Unités Lexicales Modèles de mots Textes Grammaires N-Grammes Entraînement Phrase la plus probable Extraction paramètres Décodage Parole Reconnaissance

  26. Reconnaissance de parole: Pq? • Commande et Contrôle • contrôle équipements particuliers, programmes ... • Accès à des bases de données • Home banking, numéros de tel., serveurs vocaux, ... • Dictée Vocale • création de lettres, rapports et autres documents ... • Transcription Automatique • Indexation de programmes télévision ou radio, sous titrages … • Autres … • Apprentissage des langues, jeux ...

  27. Classification • Dépendant ou indépendant du locuteur • Elocution • Mots isolés • Mots connectés ou enchaînés • Parole continue • Parole spontanée • Mots clefs • Taille du vocabulaire (de quelques mots à quelques 10.000 mots) • Contrainte grammaticale : N-grammes. • Environnements bruités, lignes téléphoniques ...

  28. Une brève histoire... Premiers systèmes basés sur recherche paramètres invariants pour identification de phonèmes (méthodes phonéticiens) peu efficace 1970 : méthodes basées sur programmation dynamique (DTW)  Efficace pour petit voc. Dépendant du locuteur. 1980 : méthodes statistiques : HMMs, Hidden Markov Models  Amélioration des taux de reconnaissance Systèmes indépendants du locuteur. Grand vocabulaire. 1990 : méthodes hybrides : HMMs / MLP (réseaux de neurones)  Systèmes plus robustes (au bruit), plus rapide et plus performants.

  29. Le projet THISL

  30. Le projet Démosthènes DEMOSTHENES a pour objectif de proposer un programme multimédia pour l'apprentissage et la correction du néerlandais parlé. L'outil ainsi conçu permettra de détecter et de corriger les erreurs-types de prononciation du néerlandais chez tout locuteur francophone. Il sera intégré dans un cours reprenant les éléments essentiels de prononciation de la langue et des exercices ciblés sur les difficultés propres à chaque apprenant. LKIT (Allemand, Anglais, etc.)

  31. Conclusion Demos: http://www.babeltech.com ou http://tcts.fpms.ac.be/synthesis

More Related