1 / 22

Autor: Carlos Martín Valle Tutor: Juan Manuel Montero Martínez

Grupo de Tecnología del Habla Departamento de Ingeniería Electrónica ETSIT. MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO. Autor: Carlos Martín Valle Tutor: Juan Manuel Montero Martínez. Proyecto inicial para Natural Vox

lenci
Download Presentation

Autor: Carlos Martín Valle Tutor: Juan Manuel Montero Martínez

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Grupo de Tecnología del Habla Departamento de Ingeniería Electrónica ETSIT MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Autor: Carlos Martín Valle Tutor: Juan Manuel Montero Martínez

  2. Proyecto inicial para Natural Vox Base de datos en dominio restringido Objetivo: modulación de la frecuencia fundamental (f0) Base: tesis doctoral de J. A. Vallejo y J.M. Montero, PFC de J. Sánchez, software de R. San Segundo Soporte: Red Neuronal y scripts *.bat y *.per INTRODUCCIÓN Carlos Martín Valle

  3. Perceptrón multicapa • Función de salida sigmoidea • Algoritmo de aprendizaje mediante retropropagación • Unidad: sílaba • Parámetros: • ZSCORE • MODO_NORM • INI • FIN • ACENT • TERMINAC • TERM_ANT • SILABAS • PAL_FUNC • NUM_PAL • POS_PAL • FIN_PAL • CONTEXTO • OCULTA • NUM_FRASE LA RED NEURONAL Carlos Martín Valle

  4. Dominio restringido con voz femenina Proyecto de mejora de voz femenina para Natural Vox Unidad: fonema Inicialmente 22 frases-patrón Finalmente 19 frases-patrón Campos variables: Nombre propio enunciativa Sintaxis simple enunciativa Nombre propio o sintaxis simple interrogativa LA BASE DE DATOS (I) Carlos Martín Valle

  5. Grabaciones • Nombres propios y apellidos en oraciones enunciativas (660 frases) • Frases 1, 2, 3, 4, 5, 6, 7, 17 y 19 • Sintagmas nominales en oraciones enunciativas (307 frases) • Frases 8, 9, 10, 11, 12 y 14 • Sintagmas nominales, movimientos bancarios y apellidos y pueblos en oraciones interrogativas (600 frases) • Frases 13, 15, 16 y 18 • Agrupaciones • 1, 2, 3, 4, 5, 10, 11, 17 y 19 • 8, 9, 12 y 14 • 13, 16 y 18 • 15 • 6 y 7 LA BASE DE DATOS (II) Carlos Martín Valle

  6. Lenguajes: C, Perl y scripts de MS-DOS • 2 grupos • Para generar ficheros con parámetros de entrada de la Red • Para realizar los experimentos y obtener el modelado de la f0 LOS PROGRAMAS (I) Carlos Martín Valle

  7. Estructura: “Superprograma”: generación de ficheros *.f0, extracción difonemas y resíntesis de frases Generación de experimentos Selección de parámetros (ficheros *.lis) Nueva codificación para la Red Neuronal (ficheros *.in) Cross validation, leave-one-out : Por cada experimento se generan 10 subexperimentos 7 para entrenamiento, 1 para evitar sobreentrenamiento y 2 para test Red Neuronal: entrenamiento, evaluación y test Obtención y elección de resultados Procesamiento y presentación de los resultados LOS PROGRAMAS (II) Carlos Martín Valle

  8. Metodología: Se parte del experimento “Vallejo19” y se van modificando los valores de los parámetros Se buscan resultados con diferencias significativas en sus parámetros Se eliminan definitivamente los peores valores de los parámetros (NUM_FRASE=0, CONTEXTO=0) Si no hay diferencias significativas se buscan diferencias consistentes Diferentes tipos de estrategias Cuando se pueden eliminar valores de los parámetros Cuando no se pueden eliminar valores de los parámetros LOS EXPERIMENTOS Y SUS RESULTADOS Carlos Martín Valle

  9. Oraciones enunciativas • Experimento “Vallejo19” • Resultados definitivos para todos los experimentos: • Se elimina NUM_FRAS=0->NUM_FRAS=19 • Se elimina CONTEXTO=0 • Se elige ACENT=INI=FIN=1 ANÁLISIS DE LOS RESULTADOSFRASES 1, 2, 3, 4, 5, 10, 11, 17 Y 19 (I) Carlos Martín Valle

  10. Resultados finales: • Tamaño intermedio de la capa oculta • Contextos pequeños • SÍLABAS: diferencias no consistentes • Se marcan las terminaciones: TERMINAC=4 • TERM_ANT es innecesario • Codificación fina para PAL_FUNC • FIN_PAL y POS_PAL: diferencias no consistentes • NUM_PAL: no es necesario usar la codificación ANÁLISIS DE LOS RESULTADOSFRASES 1, 2, 3, 4, 5, 10, 11, 17 Y 19 (II) Carlos Martín Valle

  11. Oraciones interrogativas • Experimento “Vallejo19” • Frases cortas -> Contextos pequeños ANÁLISIS DE LOS RESULTADOSFRASES 13, 16 Y 18 (I) Carlos Martín Valle

  12. Resultados finales: • Capa oculta con pocas neuronas • Contextos pequeños • SÍLABAS: diferencias no consistentes • TERMINAC: no hace falta usar la codificación • TERM_ANT: mejora no consistente • PAL_FUNC y NUM_PAL: usar codificación • POS_PAL: no es necesario usar la codificación • FIN_PAL: no usar codificación con ventana ANÁLISIS DE LOS RESULTADOSFRASES 13, 16 Y 18 (II) Carlos Martín Valle

  13. Oraciones enunciativas Causa: marcado diferente al del resto de frases Objetivo: determinar la conveniencia de esta agrupación ANÁLISIS DE LOS RESULTADOSFRASES 6 Y 7 (I) FRASE 6 • Resultados: • TERMINAC es indiferente • TERM_ANT es importante. • CONTEXTO=3 • Capa oculta de la Red Neuronal con tamaño pequeño Carlos Martín Valle

  14. No es aconsejable mezclar las frases 6 y 7 • (14,552*437 + 17,265*413) / (437 + 413) = 15,854 < 16,417 ANÁLISIS DE LOS RESULTADOSFRASES 6 Y 7 (II) FRASE 7 • Resultados: • TERMINAC=4 • TERM_ANT es indiferente. • CONTEXTO=1 • Capa oculta de la Red Neuronal con tamaño pequeño FRASES 6 Y 7 Carlos Martín Valle

  15. Oraciones enunciativas • Se descarta la frase 8 por su gran error al modelar • Cambio de estrategia en los experimentos • Se fijan inicialmente los valores de las siguientes variables: • TERMINAC=4 • TERM_ANT=5 • Frases cortas y largas • Se elimina CONTEXTO=1 ANÁLISIS DE LOS RESULTADOSFRASES 8, 9, 12 Y 14 (I) Carlos Martín Valle

  16. Resultados finales: • Tamaño intermedio de la capa oculta • CONTEXTO: 2 y 5 • SÍLABAS: diferencias no consistentes • Se marcan las terminaciones: TERMINAC=4 • TERM_ANT=5: se usa la codificación • PAL_FUNC y POS_PAL: diferencias no consistentes • NUM_PAL: se usa la codificación • FIN_PAL: codificación con ventana ANÁLISIS DE LOS RESULTADOSFRASES 8, 9, 12 Y 14 (II) Carlos Martín Valle

  17. Oraciones interrogativas • Los grupos fonéticos marcados no se sitúan al final de las frases • Resultados finales: • Tamaño grande de la capa oculta • CONTEXTO=1 • SÍLABAS=0 • Se marcan las terminaciones: TERMINAC=4 • TERM_ANT=5: se usa la codificación • PAL_FUNC, NUM_PAL, POS_PAL y FIN_PAL: 0 ligeramente mejor ANÁLISIS DE LOS RESULTADOSFRASE 15 (I) Carlos Martín Valle

  18. La inclusión de la frase 15 empeora el modelo de entonación • 13,06630 > 12,09507 • La inclusión de la frase 15 empeora el modelo de entonación • (13,254*946 + 16,223*2326) / (946 + 2326) = 15,364 < 15,598 ANÁLISIS DE LOS RESULTADOSFRASE 15 (II) FRASE 15 JUNTO CON 1, 2, 3, 4, 5, 10, 11, 17 Y 19 FRASE 15 JUNTO CON 9, 12 Y 14 Carlos Martín Valle

  19. La inclusión de la frase 15 empeora el modelo de entonación • 13,65628 > 13,04374 ANÁLISIS DE LOS RESULTADOSFRASE 15 (III) FRASE 15 JUNTO CON 13, 16 y 18 Carlos Martín Valle

  20. La separación de las frases y su posterior agrupación mejoran el reconocimiento • Sin frases 6, 7 y 8 • (12,095*2099 + 13,043*2018 + 16,222*2326 + 13,254*946) / (2099 + 2018 + 2326 + 946) = 13,802 < 14,518 • Con frases 6, 7 y 8 • (12,095*2099 + 13,043*0218 + 16,223*2326 + 13,254*946 + 14,521*437 + 17,265*413 + 20,831*393) / (2099 + 2018 + 2326 + 946 + 437 + 413 + 393) = 14,324 < 14,518 • Respecto al mejor número de J. Sánchez: 14,324 < 15,975 ANÁLISIS DE LOS RESULTADOSFRASE 15 (IV) FRASE 15 JUNTO CON TODAS LAS DEMÁS Carlos Martín Valle

  21. Entorno automatizado Leave-one-out Parámetros obtenidos directamente del sintetizador Utilidad de los parámetros Reagrupación de las frases CONCLUSIONES Carlos Martín Valle

  22. Completar la reestructuración de los programas Usar MUME en lugar del perceptrón usado Experimentar con otros parámetros de la Red Aplicar el sistema a fonemas Evaluación con oyentes LÍNEAS FUTURAS Carlos Martín Valle

More Related