Govorne tehnologije za hrvatski Speech Technologies for Croatian

Odjel za informatiku, Sveučilište u Rijeci Radmile Matejčić 2, 51000 Rijeka, Hrvatska Tel.: + 385 51 584700 Govorne tehnologije za hrvatskiSpeech Technologies for Croatian doc. dr. sc. Sanda Martinčić-Ipšić smarti@inf.uniri.hr

Uvod • govor je prirodan i najlakši način sporazumijevanja među ljudima • govorne tehnologije su sustavi koji koriste govor za komunikaciju čovjeka s računalom • sustavi za raspoznavanje govora • sustavi za sintezu govora • Zašto nema šire primjene govora za interakciju čovjeka s računalom?

Uvod II • ograničena primjena proizlazi iz promjenjive naravi govora: • dijelovi riječi i rečenica su često ispušteni u spontanom govoru, • nerazumljivo izgovoreni, • različito naglašeni, • izgovoreni različitom brzinom, • glasniji ili tiši, • utjecaj dijalekata... • teško je razlučiti početak i kraj riječi koje se zajedno izgovaraju, • velike anatomske razlike među govornicima (očituju se u govoru), • govor je često popraćen pozadinskim šumom, zvukovima, glazbom, ....

Govorne tehnologije • tehnologije koje čovjeku omogućavaju govornu interakciju s računalom • u obliku govornoga signala • koristeći znanje o jeziku i govoru raspoznavanje i sinteza govora

Govorne tehnologije II • multidisciplinarno područje • znanja, pristupi i postupci iz različitih područja • lingvistike, fonetike, akustike, psihologije, fiziologije,... • obrade signala, statistike, raspoznavanja uzoraka, umjetne inteligencije i strojnog učenja,... • istraživačka područja • Automatsko raspoznavanje govora (ASR Automatic Speech Recognition) • Sinteza govora (TTS –Text-to-Speech) • Prepoznavanje govornika (Speaker Recognition), verifikacija govornika • Prepoznavanje jezika (Spoken Language Identification) • Prepoznavanje emocija iz govora, generiranje emotivnoga govora (Emotionrecognition, EmotionalTTS)

Sadržaj • Govorne tehnologije • Raspoznavanje hrvatskoga govora • Sinteza hrvatskoga govora • Izgradnja sustava • Govorni korpusi • Rezultati • Primjena • sustav za govorni dijalog

Raspoznavanje govora • ulazni govorni signal predstavljen nizom vektora značajki, na osnovu akustičnog i jezičnog znanja, zapisanog u akustičnom i jezičnom modelu, pretvara se u niz riječi

0010-11 Spontaneous speech Fluent speech Speaking style 2000 Read speech Connected speech 1980 Isolated words 1990 2 20 200 2000 20000 Unrestricted Vocabulary size (number of words) Speech recognition technology (Furui, 2005) natural conversation 2-way dialogue network agent & intelligent messaging transcription word spotting system driven dialogue digit strings name dialing office dictation form fill by voice naši rezultati directory assistance voice commands

Sinteza govora • proces u kojem se iz danog teksta tvori čovjeku razumljiv govor • statističke metode u sintezi • uporaba skrivenih Markovljevih modela – SMM (Hidden Markov Models) • za odabir odgovarajućih jedinica (unitselection) - korpusna sinteza • kao generativni model govora (HMMTTS) – statistička parametarska sinteza

Statistička parametarska sinteza govora • za ulazni tekst se iz kontekstno ovisnih SMM-a generira govorni signal • iz naučenog modela se generira niz značajki • iz niza značajki se rekonstruira govorni signal

Izgradnja sustava akustički modeli govorni korpus rezultati

Učenje akustičkog modela • 30standardnojezičnih fonema hrvatskoga jezika • kod sinteze +6 naglašenih vokala • + stanka, udah i izdah kao i svi posebni akustični događaji u govoru • monofonski akustični modeli • trifonski modeli akustički model za glas /h/

Govorni korpus • zbirka govornih signala i njihovih tekstualnih prijepisa pohranjenih na digitalnom mediju i primjerenih za računalnu obradu • najvažniji dio sustava za raspoznavanje i sintezu govora • statistički pristupi učenja iz podataka • veličina, kakvoća i cjelovitost korpusa vitalni su dio sustava • utječu na razvojne mogućnosti i rezultate istraživanja • proces izgradnje korpusa dugotrajan, težak i skup • za hrvatski jezik je potrebno izgraditi govorni korpus

Hrvatski govorni korpus I • nastajao u periodu 2002-2010. • Radijske vremenske prognoze • Radijske vijesti • Priče • Dijalozi vezani uz vremensku prognozu • Telefonska vremenska izvješća • Hrvatski BCN (Broadcast News) + video snimke 6 dnevnika • oko 25.5sati transkribiranoga govora • preko 280.000izgovorenih riječi • približno 20.000 različitih riječi • 280 različitih govornika

Hrvatski govorni korpus II

Testiranje sustava za raspoznavanje • 4 različita sustava za raspoznavanje: vremenskih prognoza, vijesti, priča i dijaloga • modeli učeni na kumulativnom govoru: • vremenske prognoze 8sati, • vijesti 13sati, • priče 15sati govora • istih 8 muških i8ženskih govornika • testiranje svih sustava: • uvijek istih 1710rečenica u vezi s vremenom od preostalih 3 muških i6ženskih govornika

Rezultati raspoznavanja:prognoza, vijesti i priča prognoze 10.54% Pogreška raspoznavanja riječi vijesti 10.5% priče 8.55%

Raspoznavanje dijaloga • učeno na 15.5sati govora: • cijeli korpus: vremenske prognoze, vijesti i priče • (istih 8 muških i 8 ženskih govornika) + • dijalozi novih 12 muških i 12 ženskih govornika(70% od ukupnog broja dijaloga u korpusu) • testirano: • dijalozi preostalih 5 muških i 5 ženskih govornika (30% dijaloga) • rezulati su neovisni o govorniku (speaker independent) • rezultat: oko 5% pogrešno raspoznatih riječi

Izgradnja sustava za SMM sintezu • odabrani govornik sm04 • 6222 različitih riječi u 2332 izgovorenih blokova • 2.5 sata govora • vrednovanje sustava: • objektivni test: sustavom za raspoznavanje hrvatskoga govora • subjektivni test: anketa, 21 ocjenjivač • usporedni test: ocjenjivači i sustav za raspoznavanje

Rezultati sinteze • tekst iz vremenske domene • muški glas • većina riječi iz rječnika za učenje modela • sintetizirana vremenska prognoza 07.05.2012. • tekst izvan vremenske domene • ženski glas • riječi izvan rječnika • sintetizirane tekuće vijesti 26.11.2012.

Primjena sustav za govorni dijalog

Mogućnosti primjene • za e-učenje • npr. aplikacije za pomoć pri učenju izgovora hrvatskoga jezika kao stranog jezika • moguće progovoriti strani jezik vlastitim glasom • asistivne tehnologije • aplikacije za pomoć slabovidnim osobama i osobama smanjene pokretljivosti (Servus http://www.eglas.hr/) • sustavi za diktiranje i automatsko zapisivanje • npr. diktiranje dijagnoza za rendgenske slike • sustavi za vođenje govornog dijaloga čovjeka s računalom • npr. vezanog uz trenutnu vremensku situaciju i prognozu

Mogućnosti primjene II • Interakcija čovjeka s računalom (HCI) • nadzor i korištenje različitih inteligentnih naprava • dlanovnici, tableti i pametni telefoni • upotreba u situacijama gdje se ruke i oči zauzete • kompaktni i tematski određeni sustavi za raspoznavanje i sintezu govora • govorno sučelje WEB aplikacija • Biometrija • prepoznavanje i identifikacija govornika – sigurnost • Zabava • interaktivne igre, avatari, računalni likovi

Sustav za govorni dijalog • ograničenja • veličina vokabulara • uska domena primjene • jednostavne rečenice • govorni dijalog za vremenske informacije • pridobivanje informacija o vremenskoj situaciji i vremenskoj prognozi • za različite dijelove Hrvatske • semantička analiza domene (ekstrakcija informacija)

Sustav za govorni dijalog II

Zaključak • Govorne tehnologije za hrvatski • raspoznavanje velikog vokabulara hrvatskog jezika (10000+ različitih riječi), telefonskog govora • parametarska sinteza – generiranje hrvatskoga govora dobre razumljivosti • primjena u sustavu za vođenje govornoga dijaloga za vremenske prognoze • otvoreno: proširenje korpusa, poboljšanje rezultata, sustav za govorni dijalog, nove domene...

Istraživački tim Miran Pobar mpobar@inf.uniri.hr LuciaNačinović lnacinovic@inf.uniri.hr prof.dr.sc.Ivo Ipšić ivoi@inf.uniri.hr doc.dr.sc.Sanda Martinčić-Ipšić smarti@inf.uniri.hr doc.dr.sc.Ana Meštrović amestrovic@inf.uniri.hr

Odjel za informatiku, Sveučilište u Rijeci Radmile Matejčić 2, 51000 Rijeka, Hrvatska Tel.: + 385 51 584700 Govorne tehnologije za hrvatskiSpeech Technologies for Croatian doc. dr. sc. Sanda Martinčić-Ipšić, smarti@inf.uniri.hr

Objavljeni radovi • Pobar, Miran; Martinčić-Ipšić, Sanda; Ipšić, Ivo. OptimizationofCostFunctionWeights for UnitSelectionSpeechSynthesisUsingSpeechRecognition. NeuralNetwork World. Forthcoming2012. • Martinčić-Ipšić, Sanda; Pobar, Miran; Ipšić, Ivo.CroatianLargeVocabulary Automatic SpeechRecognition. // Automatika. 52 (2011) , 2; 147-157 • Meštrović, Ana; Bernić, Luka; Pobar, Miran; Martinčić-Ipšić, Sanda; Ipšić, Ivo.Overviewof a CroatianWeatherDomainSpokenDialogueSystemPrototype // Proceedingsofthe ITI 2010pp.103-108. • Martinčić-Ipšić, Sanda; Ribarić, Slobodan; Ipšić, Ivo.AcousticModelling for CroatianSpeechRecognitionandSynthesis. // Informatica. 19 (2008) , 2; 227-254 • Sanda, Martinčić - Ipšić; Ivo, Ipšić.CroatianHMM-basedSpeechSynthesis. // JournalofComputingandInformationTechnology, CIT. 14 (2006) , 4; pp.307-313. • Meštrović, Ana; Martiničić-Ipšić, Sanda; Ipšić, Ivo.SemanticAnalysisin F-logic // SemanticRepresentationofSpokenLanguage2007 / Plá, Manuel A ; Declerck, Thierry (ur.).Salamanca : DFKI, 2007.pp.59-66. • Martinčić-Ipšić, Sanda; Ipšić, Ivo.Recognition of Croatian Broadcast SpeechMIPRO 2004. 111-114. • Martinčić-Ipšić, Sanda; Ipšić, Ivo.CroatianTelephoneSpeechRecognitionIPRO2006,. 182-186

SMM (HMM) sinteza • učenje akustičkog modela izvodi se jednako kao pri sustavu za raspoznavanje • kontekstno neovisni (monofonski) i • kontekstno ovisni (trifonski) akustički SMM-i • uče se na govoru predstavljenom vektorima značajki akustički model za glas /h/

Raspoznavanje govora • statistički pristup raspoznavanju govora: formalizam skrivenih Markovljevih modela (SMM-a) • X=(X1,X2,..,Xn) niz akustičnih opažanja ili niz vektora značajki govornoga signala, W=(W1,W2,..,Wm) niz raspoznatih riječi, • P(X|W) vjerojatnost akustičnog događaja pri raspoznatom nizu riječi W, • P(X) vjerojatnost akustičnog opažanja i • P(W) vjerojatnost izlaznog niza raspoznatih riječi • raspoznavanje govora pomoću SMM-a: maksimum produkta vjerojatnosti akustičnog modela P(X|W) i vjerojatnosti jezičnoga modela P(W)

Izgradnja sustava raspoznavanje hrvatskoga govorasinteza hrvatskoga govora

Izgradnja sustava za raspoznavanje • određivanje značajki govornoga signala • izgradnja akustičkog modela • učenje kontekstno neovisnih modela • učenje kontekstno ovisnih modela • izgradnja jezičnog modela • bigrami

Izgradnja sustava za SMM sintezu • određivanje značajki govornoga signala • učenje akustičnoga modela • kontekstno neovisnog • kontekstno ovisnog • generiranje govornoga signala

Učenje akustičnog modela • 30standardnojezičnih fonema hrvatskoga jezika • kod sinteze +6 naglašenih vokala • + stanka, udah i izdah kao i svi posebni akustični događaji u govoru • monofonski akustični modeli • linearni SMM-i s Gaussovim kontinuiranim funkcijama gustoća vjerojatnosti, 5/3 stanja • automatska segmentacija • trifonski modeli • inicijalne vrijednosti svih parametara jednake vrijednostima monofonskih modela • problem oskudnosti govornoga materijala za učenje • postupak vezivanja stanja - 83 hrvatskih fonetskih pravila

Postupak parametrizacije govornoga signala u sustavima za raspoznavanje i sintezu govora • na govornom signalu izvodi se brza Fourierova transformacija (FFT) čime se dobiva spektar govornoga signala. • Trokutastim mel-frekvencijskim filtrom se iz spektra određuju mel-kepstralni koeficijenti. • logaritmiranjem i diskretnom kosinusnom transformacijom dobivamo vektor MFCC značajki s 39 vrijednosti: • prvih 13 MFCC koeficijenata, • 13 dinamičnih značajki prvog () reda i • 13 dinamičnih značajki drugog (2) reda.

Jezično modeliranje hrvatskoga govora • statistički n-gramski modeli • vjerojatnost nastupa pojedine riječi wn ako joj prethodi niz riječi Wn-1 • n-gramska vjerojatnost nastupa niza riječi W=w1,w2,..,wn • BIGRAM: vjerojatnost nastupa riječi wi, ako joj je prethodila riječ wi-1 • N(wi-1,wi) frekvencija nastupa para riječi • N(wi-1) frekvencija nastupa riječi wi-1 glađenje bigramske vjerojatnosti unigramskom

Učenje kontekstno ovisnih modela • svaki trifon modeliran • jednim linearnim SMM-om 5/3 stanja • Gaussovim kontinuiranim funkcijama gustoća vjerojatnosti • inicijalne vrijednosti svih parametara jednake vrijednostima monofonskih modela • 1 iteracijom Baum-Welcheva učenja • postupak vezivanja stanja • 83 hrvatska fonetskih pravila • procjena parametara vezanih stanja modela • iteracije Baum-Welcheva učenja • povećava broj Gaussovih mješavina • iteracije učenja

Postupak raspoznavanja • iz trifonskih SMM-a se gradi modele za sve riječi w1,w2,..,wM iz fonetskog rječnika • trifonski SMM-i riječi povezuju se u mrežu • zajedničko početno sp i završno stanje sk • P(X|wi) akustična vjerojatnost pojedine riječi • P(wi) vjerojatnost jezičnoga modela • raspoznavanje:

Evaluacija sustava za raspoznavanje • Točnost raspoznatih riječi (Correctness) • Preciznost raspoznatih riječi (Accuracy) • N ukupan broj riječi u izvornom nizu riječi, • D broj pogrešaka nastalih izostavljanjem riječi u raspoznatom nizu riječi, • S broj pogrešaka nastalih zamjenama pravilne riječi iz izvornog niza nepravilnom riječi u raspoznatome nizu riječi te • I broj pogrešaka nastalih ubacivanjem nepravilnih riječi u raspoznatome nizu na mjesta gdje u izvornome nizu nema riječi • Mjera pogrešno raspoznatih riječi = 1-preciznost (Word Error Rate – WER)

Rezultati ASR dijalozi WER trifonskih modela Word Error Rate

Najvažniji alati • sustav za raspoznavanje govora • HTK Toolkit ver. 3.4 (The Hidden Markov Model Toolkit) • sustav za sintezu govora • HTS ver. 2.2. (The HMM-Based Speech Synthesis System) • alat za analizu i obradu govornog signala • SPTK ver. 3.5. (Speech Signal Processing Toolkit)

Izgradnja sustava za SMM sintezu II • vektor značajki govornoga signala 75 vrijednosti • monofonskiSMM-i • 36 fonema (naglašeni i nenaglašeni samoglasnici + samoglasničko /r/) • + 4 posebna akustična događaja • trifonskiSMM-i • 10394trifona • vezivanje stanja pomoću hrvatskih fonetskih pravila (83) • iz trajanja svakog stanja SMM-a određen model trajanja fonema • omogućeno generiranje parametara za "neviđene" trifone • generiranje govora • za vrijeme trajanja svakog stanja se generiraju izlazna opažanja • iz generiranih vektora mel-kepstralnih značajki i osnovne frekvencije upotrebom MLSA filtra se generira govorni signal (model izvor-filtar)

Generiranje govornoga signala (SMM sinteza) • ulazni tekst se pretvori u odgovarajući trifonski zapis • za svaki od trifona iz ulaznoga teksta povezuju se trifonski SMM-i u modele riječi i rečenica • pomoću modela trajanja izračunava trajanje svakog stanja u povezanim SMM-ima • duljina trajanja utječe na broj izlaznih vektora koji će se generirati iz toga stanja • za vrijeme trajanja svakog stanja se generiraju izlazna opažanja • iz distribucija vjerojatnosti stanja generiraju izlazni vektori mel-kepstralnih značajki govornoga signala i logaritma osnovne frekvencije • izlazni vektori značajki po strukturi odgovaraju ulaznima • iz generiranih vektora mel-kepstralnih značajki i osnovne frekvencije upotrebom MLSA filtra se generira govorni signal (izvor-filtar model)

Semantička analiza

Govorne tehnologije za hrvatski Speech Technologies for Croatian