1 / 16

Verbetering van door het gebruik van in de automatische spraakherkenning

?. Verbetering van door het gebruik van in de automatische spraakherkenning. consonantidentificatie. klinkertransities. Jacques Koreman & Attilio Erriquez Universität des Saarlandes, Saarbrücken. Overzicht. Identificatie van medeklinkers: coarticulatie als bron van informatie

matteo
Download Presentation

Verbetering van door het gebruik van in de automatische spraakherkenning

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ? Verbetering vandoor het gebruik vanin de automatische spraakherkenning consonantidentificatie klinkertransities Jacques Koreman & Attilio Erriquez Universität des Saarlandes, Saarbrücken Dag van de Fonetiek, 17 december 1999, Utrecht

  2. Overzicht • Identificatie van medeklinkers: coarticulatie als bron van informatie • Impliciet gebruik door HMM’s voor gegeneraliseerde trifonen • Doelmatige signaalverwerking moet informatie beter kunnen aanspreken: aanpassing systeemarchitectuur • Problemen: waarom medeklinkers niet beter herkend worden • Oplossing: nog meer fonetische kennis (?) Dag van de Fonetiek, 17 december 1999, Utrecht

  3. Coarticulatie in ASR Coarticulatie als bron van variatie:  random variatie:deze wordt doorgaans in probabilistische modellen beschreven d.m.v. normaalverdelingen (voorbeeld: kleine verschillen in interarticulatorische timing)  betekenisvolle variatie = informatie:voorbeeld: i.p.v. monofoonmodellen (a) worden (gegeneraliseerde) trifonen (b) gebruikt in de hidden Markov modellering a) “dag” = d0 d a x b) “dag” = d0 d alv_a_vel x (gegeneralis. naar plaats) Dag van de Fonetiek, 17 december 1999, Utrecht

  4. Transities en locus Klinkertransities bevatten informatie over de naburige medeklinker: de formanttransities “wijzen” naar de locus, die van de articulatieplaats van de consonant afhangt. Delattre, P., A. Liberman, F. Cooper (1955). “ Acoustic loci and transitional cues for consonants,” JASA27(4), 769-773. Dag van de Fonetiek, 17 december 1999, Utrecht

  5. Consonantidentifikatie en transities Het gebruik van klinkertransities (35 ms) .... consonant lexicon hidden Markov modellering taalmodel BASELINE MFCC’s + energie +delta parameters MFCC’s + energie +delta parameters C TransVC - C - TransCV

  6. Consonantidentifikatie en transities Het gebruik van klinkertransities (35 ms) verbetert de herkenning van medeklinkers.

  7. Random en betekenisvolle variatie De inputparameters voor hidden Markov modellering in het voorgaande experiment zijn niet optimaal, immers: • Voor de “steady states” van de medeklinkers bestaan de delta parameters slechts uit random variatie.Alleen de MFCC’s en energie zijn belangrijk voor de identificatie van de consonant. • Voor de klinkertransities geldt het omgekeerde, want de deltaparameters weerspiegelen hier de spectrale verandering, terwijl de MFCC’s en de energie minder belangrijk zijn. Dag van de Fonetiek, 17 december 1999, Utrecht

  8. Het selectief gebruik van informatie Om informatie in het signaal selectiever te gebruiken, werden twee Kohonennetten getraind: • statisch KohonennetDit Kohonennet moet “steady states” optimaal modelleren en wordt met MFCC’s en energie getraind. • dynamisch Kohonennet Dit Kohonenet moet klinkertransities optimaal modelleren en wordt ook met deltaparameters getraind. Dag van de Fonetiek, 17 december 1999, Utrecht

  9. hidden Markov modellering Systeemarchitectuur consonant lexicon taalmodel w fonetische kenmerken fonetische kenmerken dynamischKohonennet statischKohonennet MFCC’s + energie MFCC’s + energie +delta parameters Dag van de Fonetiek, 17 december 1999, Utrecht

  10. Het kenmerk [onset] In de Kohonennetten worden de akoestische parameters op fonetische kenmerken afgebeeld (vgl. voordracht Helmer Strik). Bovendien wordt in het dynamische Kohonennet een kenmerk [onset] getraind, dat voor VC-transities de waarde -1 en voor CV-transities de waarde 1 heeft. Voor de consonanten heeft het kenmerk [onset] de waarde nul. fonetische kenmerken fonetische kenmerken dynamischKohonennet statischKohonennet MFCC’s + energie MFCC’s + energie +delta parameters Dag van de Fonetiek, 17 december 1999, Utrecht

  11. Gewichting met het kenmerk [onset] Het relatieve gewicht van de output van de twee Kohonen-netten in de hidden Markov modellering (“stream weights” in HTK, maar per frame instelbaar) is afhankelijk van de absolute [onset]-waarde: w fonetische kenmerken fonetische kenmerken Naarmate de absolute [onset]-waarde hoger is weegt de outputvector van het dynamische Kohonennet zwaarder en de outputvector van het statische Kohonennet minder zwaar. Dag van de Fonetiek, 17 december 1999, Utrecht

  12. Resultaten De relatieve weging van informatie in de “steady states” en in de transities blijkt geen effekt op de consonantidentificatie te hebben. Het simpel concateneren van de outputvectoren van de twee Kohonennetten (“no weighting”) heeft hetzelfde effekt. (Resultaten zonder akoestisch-fonetische mapping: C = 15.83%; POA = 44.78%) Dag van de Fonetiek, 17 december 1999, Utrecht

  13. Why oh why oh why? (Eyore) • Transities worden niet goed getraind: door het gebruik van een vaste transitieduur van 35 ms. wordt soms slechts een deel van de transitie en soms ook en deel van de “steady state” gebruikt voor het trainen van transitiemodellen. Hetzelfde probleem speelt bij de herkenning. • De fonetische kenmerken worden niet goed getraind in het dynamische Kohonennetwerk. Reden: de transities verlopen over meerdere filterbanden, zodat de gedurende transities verschillende MFCC’s veranderen. Het gebrek aan homogene veranderingen in de MFCC’s zorgt ervoor dat geen stabiele fonotopische kaart ontstaat. De fonotopische kaart is dan niet geschikt om de akoestische parameters op fonetische kenmerken af te beelden. Dag van de Fonetiek, 17 december 1999, Utrecht

  14. Het bewijs? Voorbeeld: E. “number”; [onset] goed getraind, [labial] niet. Dag van de Fonetiek, 17 december 1999, Utrecht

  15. ? Conclusie: nog meer fonetische kennis Als het gebrek aan homogeniteit in de inputdata een slechte fonotopische organisatie van het dynamische Kohonennet veroorzaakt, kan deze misschien verbeterd worden door sterker fonetisch georienteerde inputdata, zoals deltawaarden voor de formanten (i.h.b. F2) of lineaire regressiewaarden. Deze zijn in de transities homogener dan delta MFCC’s. Dag van de Fonetiek, 17 december 1999, Utrecht

  16. - EINDE - Dag van de Fonetiek, 17 december 1999, Utrecht

More Related