270 likes | 350 Views
Einsatzmöglichkeiten der Sprachsignalverarbeitung. Milan SIGMUND , TU Br ü nn , sigmund @ feec.vutbr.cz. Sprach sign a l. Was ist Sprache ?. Akusti s c he For m. Schriftliche F orm. e i n s o der 1. Sign al form. Mat h emati s c he F orm „a“. Sprach sign a l.
E N D
Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn,sigmund@feec.vutbr.cz
Sprachsignal WasistSprache ? AkustischeForm SchriftlicheForm eins oder1 Signalform MathematischeForm „a“
Sprachsignal Sprache aus der technischenSicht Sprache = Sprachsignal (akustischesSignal) daskann man: ► messen ►übertragen ►aufnehmen (archivieren) ►bearbeiten und verarbeiten (auch on-line)
pabs(t) Pm pak(t) AkustischesSignal Abfolge von Luftdruckschwankungen Atmosphärendruck Pm : langsame Schwankungen 960-1050 hPa Schalldruck pak: schnelle Schwankungen 20 μPa-0,1 Pa t [Tage] Absolutdruck: pabs = Pm + pak t [ms] Maßeinheit Pascal 1 Pa = 1 N/m2
AkustischesSignal • man unterscheidet: • ► periodische Klänge • (Musik, Vogelgesang, Wind,....) • ► nichtperiodische Klänge • (Husten, Gewitterdonner,....) • ► Sprache
s(t) A t j T AkustischesSignal ReinerTon s(t) = A sin (2π f t + φ) Parameter wahrgenommen als Amplitude A PeriodeT resp. Frequenzf Phase φ Lautstärke Tonhöhe
AkustischesSignal Audio = „ich höre“ (lateinisch) Infraschall Schall Ultraschall unhörbar hörbar unhörbar 16 Hz 20 000 Hz
AkustischesSignal Hörfläche des menschlichen Gehörs Schallquelle: 140 dB Flugzeug beim Start 120 dB Rockgruppe 80 dB belebteStrasse 70 dB normaleUnterhaltung 50 dB leiseUnterhaltung 30 dB sanftes Flüstern 20 dB Papiergeraschel
Sprache Frequenz [Hz] Bühnensprache 80 – 16 000 Musikinstrument Frequenz [Hz] Alltagssprache 180 – 6 000 Orgel 15 – 16 000 Telefonsprache 300 – 3 400 Klavier 25 – 4 000 Kontrabass 40 – 250 Trompete 150 – 1 100 Fagott 50 – 500 Piccoloflöte 500 – 5 000 AkustischesSignal Frequenzbereiche
Informationsgehalt der Sprache Gesamtinformation in störungsfreiem Sprachsignal: 75 % Inhalt der SpracheWas? 25 % Sprecher: 15 % - Identität Wer? 10 % - Zustand Wie? Zustand Identität Nachricht
Spracherkennung - Vokale Vokal „a“im Detail · • periodische Signalform · • hohe Signalenergie · • charakterisiert durch Formanten
Spracherkennung - Vokale Formanten - lokale Maxima im SpektrumF1 - F7 - Resonanzfrequenzen von den größten Räumen des Vokaltraktes • F1 - Rachenraum F2 - Mundhöhle F3 - Nasenhöhle S(f) F1 F2 F3 f
Spracherkennung - Vokale Vokal F1 [Hz] F2 [Hz] a 800 - 1000 1200 - 1400 e500 – 7001600 - 2100 i300 - 5002100 - 2700 o500 - 700 900 - 1200 u300 - 500 600 - 1000
Spracherkennung Variabilität des Sprachsignals Wort „Signal“ im Zeitbereich (dreimal von einem Sprecher)
Spracherkennung Segmentierung des Sprachsignals Verschiebung Überlappung Segment ~ 20-30ms Hamming-Fenster w(n) = 0,54 - 0,46 cos(2n/N)fürn = 1, 2, ..., N w(n) = 0 sonst N .... Länge eines Segments in Abtastwerten
Spracherkennung Sprachmerkmale: Signalenergie Nulldurchgangsrate s(n) - Sprachsignal N - Segmentlänge (inAbtastwerten) Z= 19
Spracherkennung Zeitverlauf Energie Log Energie Nulldurchgangsrate
Spechererkennung Optimale Merkmale führen durch Sprachsignalverarbeitung direkt zu anatomischen Parametern
Spechererkennung Grundfrequenzder StimmeF0 Merkmal des Sprachsignals:Grundfrequenz der Stimme F0 in Hz Bezogener anatomischer Parameter:Länge der Stimmlippen L in mm
Spechererkennung Werte der Grundfrequenz F0 Normale Sprache 50 – 400 Hz Männer 70 – 160 Hz typischF0=110 Hz Frauen 150 – 280 Hz typischF0=210 Hz Kinder 300 – 400 Hz Extrem – singende weibliche Stimme bisca. 980 Hz
Anwendungen Spracherkennung: ► Akustische Steuerung von Geräten •Alarmstopschalter (ein Wort) • Eingabe der Rufnummer •Lichtsteuerung, … ► Fließende Sprache •Begutachtungen (medizinische, forensische) • Schlüsselworterkennung in Audiodateien • Diskussion bei wichtigen Tagungen, …. Ziel: Diktiermaschine mit Spracheingang
Anwendungen Dialogsysteme: ►Informationen • Fahrplan,Flugplan, Telefonnummer, … ►Übersetzungen • on-line mitHandy, ...
Anwendungen Spechererkennung: ► Verifikation • Wegfahrsperre für Kraftfahrzeuge •telefonischer Bankauftragsdienst ► Identifikation • Analyse von Täterstimmen für forensischen Gebrauch Ziel: Zuverlässigkeit wie Fingerabdruck
Anwendungen Erkennung des Sprecherzustandes: ►Medizinische Untersuchungen • Krankheiten an Sprechorganen (Krebs,...) • Alzheimer, Parkinson,… ►Psychoanalyse (teilweise) • Stress, Depression, Ermüdung • Freude, ... Ziel: automatische Diagnose
Anwendungen Spezielle Analyse (Erkennung): ►Test nach Alkohol vor Autofahren - Dialog überHandy ► Schätzung des IQ bei kleinen Kindern - Analyse des Baby-Weinens ►Lügendetektor - software im Internet ?
Leistungsvergleich TechnischesSystem (PC): ► erkennt Sprecher und weiblich/männlich schneller(40ms) ► erkennt mehr Personen (Mensch ca. 150 Stimmen) ► nutzt Informationen, die Mensch nicht hören kann Gehirn: ► kann eine Stimme aus der Stimmenmischung filtern ► bessere Übersetzung in fremde Sprache ► bessere Rekonstruktion der fehlenden Frequenzen (Telefon, Laptop) ► bessere Rekonstruktion der falschen Wörter (gebrochene Sprache)