RECONOCIMIENTO DEL HABLA EN AMBIENTES GSM Y RUIDOSOS: PROGRESO Y ENFOQUES FUTUROS

About This Presentation
Title:

RECONOCIMIENTO DEL HABLA EN AMBIENTES GSM Y RUIDOSOS: PROGRESO Y ENFOQUES FUTUROS

Description:

natural durations. normalized durations ... Normalized duration: 5.3% WER. Relative Improvement: 36.9 ... Normalized duration: 3.7% WER. Relative Improvement: ... –

Number of Views:38
Avg rating:3.0/5.0
Slides: 46
Provided by: Richar8
Learn more at: http://www.cs.cmu.edu
Category:

less

Transcript and Presenter's Notes

Title: RECONOCIMIENTO DEL HABLA EN AMBIENTES GSM Y RUIDOSOS: PROGRESO Y ENFOQUES FUTUROS


1
RECONOCIMIENTO DEL HABLA EN AMBIENTES GSM Y
RUIDOSOS PROGRESO Y ENFOQUES FUTUROS
  • Richard M.Stern
  • con Xiang Li, Jon Nedel, Mike Seltzer, y Rita
    Singh
  • Department of Electrical and Computer Engineering
  • and School of Computer Science
  • Carnegie Mellon University
  • Pittsburgh, Pennsylvania 15213
  • Teléfono (412) 268-2535
  • Fax (412) 268-3890
  • rms_at_speech1.cs.cmu.edu
  • 12 Febrero, 2002

2
Reuniones previos en este serie
  • 29 Enero 1999, Madrid
  • 30 Novembre 1999, Pittsburgh
  • 10 Julio 2000, Madrid
  • 6 Febrero 2001, Pittsburgh
  • 16 Octubre 2001, Pittsburgh
  • 12 Febrero 2002, Madrid

3
Agenda para hoy
  • Temas de hoy
  • Entrenamiento en paralelo (Singh)
  • Normalización de la duración de voz espontánea
    (Nedel)
  • Técnicas de parámetros perdidos (Seltzer, Li,
    Raj)
  • Combinación de los grupos complementarios de
    parámetros (Singh, Li)
  • Otras temas no discutido hoy en detalle
  • Progreso clásico en codificación GSM (Huerta)
  • Reconocimiento de voz codificada (Singh)
  • Arreglos de micrófonos usando parámetros óptimos
    (Seltzer)
  • Discusión general

4
Entrenamiento en paralelo el problema
  • El entrenamiento consiste en la interacción de
    dos pasos
  • Estimación de las fronteras de los estados de los
    segmentos usando estimaciones conocidas
    (fronteras dura por Baum Welch
  • Estimación de nuevos parámetros distribuidos para
    los estados, a partir de los datos dentro estados
    de los segmentos estimados
  • En ruido, la determinación de las fronteras de
    los segmentos es difícil
  • Resultados muestran falta de datos de otros
    estados en cualquier estado, con la consecuente
    estimación pobre de los parámetros distribuidos
    del estado
  • Nueva estimación de las fronteras de los
    segmentos con pobres modelos estimados es lo que
    alivia este problema

5
Entrenamiento en paralelo la solución
  • Use datos en paralelo limpios para estimar las
    fronteras entre segmentos
  • Use las estimaciones de las fronteras con datos
    limpios y con voz ruidosa, para calcular los
    modelos de voz ruidosa

6
Entrenamiento en paralelo experimentos
  • Habla limpio fue corrompido por 5 tipos de ruido
    aditivo
  • Ficheros usado para corromper los datos de de
    entrenimiento y prueba fueron diferentes
  • Ejemplos
  • Limpio
  • Bares
  • Metro
  • Música
  • Tráfico

7
Detalles de los experimentos
  • CD-HMMs con 8 gausianos/estado 400 tied states
  • Topología HMM con tres estados sin saltar
  • Entrenamiento con 4 horas de datos (3458 frases)
  • Prueba con 2 horas de datos (1728 frases)

8
Promedios de las relaciones señal a ruido
  • Relación señal a ruido, dB

Bares Metro Música Tránsito
Entrenemiento -2.70 -8.17 -5.53 -4.47
Prueba 0.56 -14.1 -6.50 -1.15
9
Relación señal a ruido, datos bares
  • Entrenamiento Prueba

10
Entrenamiento en paralelo resultados
  • Tasa de error con entrenamientos diferentes

Entrenemiento
Limpio
Igualido
Paralelo
Paralelo_SNR
11
Resumen entrenamiento paralelo
  • El Entrenamiento paralelo pueda bajar la tasa de
    error mucho
  • pero .
  • La tasa de error depende en la relación señal a
    ruido
  • La tasa de error depende en alinear los dos
    fuentes de habla
  • La codificación dispersa las representaciones de
    las señales
  • Comentario Necesitamos un base de datos de con
    habla limpio y habla codificado en el ruido para
    resolvar este tema

12
Normalización de duración
  • Proceso de normalización de la duración
  • Resultados usando la segmentación de oracle
  • Aspectos de la base de datos
  • Técnicas propuestas de segmentación automática

13
Es problemático modelar la duración de fonemas
espontáneos con HMMs
  • HMMs no modelan bien la duración de fonemas en
    voz natural
  • las probabilidades de transición tienen poco
    impacto en la hipótesis final
  • la información sobre la duración derivada de las
    probabilidades de transición no corresponden en
    forma precisa con las medidas de duración
    (Siegler Stern)
  • Cada vez que se produce un fonema en habla
    continua, se produce con diferente duración
  • dependiendo en el contexto fonético, registro de
    voz, velocidad de la voz y énfasis, etc.

14
Normalización de la duración y HMMs
  • Efectos de la normalización de la duración
  • la duración de los fonemas se convierte a
    determinística
  • se reducen las variaciones del modelo en los
    fonemas
  • se mejora la precisión en el reconocimiento de
    voz espontánea

15
Como se normaliza la duración
  • Para fonemas largos, se submuestrea la secuencia
    de tramas
  • Para fonemas cortos, se expande el fonema en
    tiempo y se reconstruyen las porciones perdidas
    usando métodos basados en correlación

16
Ejemplo de voz antes y después de normalización
de la duración
natural durations
normalized durations
17
Resultados de los experimentos usando límites de
oracle en los fonemas
  • Normalización de la duración en TID (marzo)
    13086 palabras de prueba

TID baseline 8.4 WER Normalized duration
5.3 WER Relative Improvement 36.9
  • Normalización de la duración en TID (actual)
    7634 palabras de prueba

TID baseline 5.3 WER Normalized duration
3.7 WER Relative Improvement 30.2
18
Problemas en la base de datos
  • Ejemplos problemáticos
  • palvoc second voice pronounces words in the
    vocab
  • bas intelligible OOV words
  • vocess unintelligible voices
  • pac cut off word
  • Ejemplos
  • bas siete euros y veinti nueve bas
    (2094M006)
  • bas quinientos veinti cinco bas (2263S129)

19
Problemas en la base de datos (2)
  • Los resultados de WER usando transcripciones de
    referencia que contienen puntos problemáticos no
    reflejan que la normalización de la duración sea
    efectiva en la base de TID
  • Se han reducido los conjuntos de entrenamiento y
    de prueba en un 50 para extraer repeticiones
    cuestionables
  • Idealmente, todas las repeticiones con puntos
    problemáticos deben ser transcritas nuevamente
    para incluir texto adecuado en todas las palabras
    inteligibles
  • Pregunta
  • Cómo quiere Telefónica que se manejen y se
    prueben estas repeticiones ?

20
El problema de segmentación
  • El mejorar las fronteras de segmentación
    resultará en mejorar la tasa de reconocimiento

21
Estimación de fronteras
  • Técnicas propuestas
  • Segmentación jerárquica
  • Segmentación basada en el conocimiento
    (Knowledge-based segmentación )
  • Segmentación mejorada y basada en HMM
  • También se trabaja en combinar estas técnicas
  • Segmentación de alta calidad
  • Medida de verosimilitud para estimar cada frontera

22
Estimación de fronteras Segmentación jerárquica
Dendograma una representación multinivel que
permite al sistema capturar cambios graduales y
abruptos de la señal
23
DendrogramaEjemplo de segmentación
  • El dendrograma proporciona segmentación correcta

24
Dendrograma Aspectos a resolver
  • El dendrograma proporciona una segmentación
    adecuada
  • Procedimiento propuesto para obtener una
    segmentación adecuada
  • Enumerar las posibles segmentaciones
  • Reducir segmentaciones usando el criterio de
    longitud en éstas
  • Aplicar la normalización de la duración y
    decodificación a las segmentaciones restantes
  • Escoger la hipótesis correcta con una función
    objetivo
  • Posible función objetivo
  • Verosimilitud normalizada de las hipótesis
    resultantes (para compensar el número variable
    de tramas en las distintas segmentaciones)

25
Estimación de fronteras Segmentación basada en
HMM enfocado en el centro del fonema
  • La región central de un fonema es generalmente
    más estable que las transiciones entre fonemas
  • Hipótesis el método de normalización de la
    duración no es tan sensible a las fronteras
    obtenidas con el método del centro del fonema

26
Estimación de fronteras Segmentación mejorada y
basada en HMM
  • Se usan HMMs y el algoritmo de Viterbi para
    proponer una segmentación de fonemas hipóteticos
  • La búsqueda consiste en salir del estado final de
    algunos fonemas en tiempos inapropiados
  • Se entrenan las penalidades de salida
    dependientes del contexto en la gráfica de
    búsqueda de Viterbi para mejorar las ubicaciones
    de las fronteras

27
Estimación de fronteras Segmentación basada en
el conocimiento
  • Se pretende usar medidas de coherencia espectral
    para segmentar la voz en unidades básicas
    consistentes
  • Separemos la voz en bandas de frecuencia técnicas
    de detección landmark y usar características que
    dependen en el contexto

28
Resumen normalización de duración
  • El método de normalización de la duración es
    viable para la base TID ( tiene un potencial de
    30 de mejora relativa para un sistema base con
    WER de 5.3)
  • Se requiere resolver los ejemplos problemáticos
  • Se ha construido redes basadas en dendogramas que
    contienen las segmentaciones correctas
  • Se está trabajando en encontrar una forma
    automática de extraer las segmentaciones
    adecuadas
  • Se han propuesto otros esquemas de segmentación
  • Hemos mejorado la tasa de identificar fronteras
    de fonemas, pero no bastante para mejorar la tasa
    de error

29
Llenado de parámetros perdidos
  • En Carnegie Mellon se modifican los parámetros de
    entrada en lugar de los modelos internos (esto
    último es lo realizado en Sheffield)
  • Por qué se modifican los parámetros de entrada?
  • Un conjunto de parámetros más flexible (pueden
    usarse parámetros cepstral en lugar de log
    spectral)
  • Un procesamiento más simple
  • No hay necesidad de modificar el reconocedor

30
Reconocimiento usando cepstra compensado y voz
contaminada por ruido blanco
Cluster Based Recon.
Spectral Subtraction
Temporal Correlations
Accuracy ()
Baseline
SNR (dB)
  • Mejoras substanciales en el reconocimiento se
    obtienen al reconstruir regiones corruptas en
    espectogramas con voz ruidosa
  • Se requiere de la localización de parámetros
    perdidos

31
Reconocimiento con máscaras
  • Voz más ruido blanco

32
Reconocimiento con máscaras
  • Voz más ruido de fábricas

33
Reconocimiento con máscaras
  • Voz más música

34
Reconocimiento de la base de Telefónica con
ruido de tráfico
  • Algoritmos de parámetros perdidos mejora la WER
    para SNRs bajas

35
Reconocimiento con caracteristícas perdidas Mas
resultados con el base de datos rueda
Baseline
Spec sub
MF Classifier
MF SpecSub
Oracle
Procesamiento del vector diferencia del espectro
36
Combinación de caracteristícas en entornos
difíciles
  • Motivación A medida que el ambiente es más
    ruidoso las personas que escuchan obtienen
    información adicional de la señal deseada
  • Premisa Cuando los ambientes ruidosos están
    fuera de nuestro control es mejor extraer más
    información de la señal que del ruido
  • Hay que analizar la señal desde diferentes
    perspectivas
  • Múltiples perspectivas de la señal equivalen a
    multiples características que la representan
  • Se combinan hipótesis de reconocimiento de las
    representaciones paralelas de la señal

37
CARACTERÍSTICAS PARALELAS PARA AMBIENTES RUIDOSOS
  • En el 2000, el reconocimiento se realizó en la
    base TID usando características seleccionadas
    ad-hoc
  • Algunos resultados previos son

Feature
WER()
38
COMBINACIÓN DE HIPÓTESIS EN EL 2000
  • Las hipótesis en paralelo se generaron y
    combinaron
  • Se añadieron lazos entre las hipótesis en las
    transiciones con tiempos comunes de transición
  • La gráfica de búsqueda se formó de la siguiente
    manera usando LM

39
SISTEMAS DE COMBINACIÓN EN PARALELO
  • Se generalizan las combinaciones de hipótesis
  • Combinaciones de hipótesis o combinaciones de
    enrejados (lattice)
  • Las salidas del reconocimiento se combinan de
    sistemas múltiples en una gráfica (para
    combinaciones de hipótesis) o en grandes gráficas
    (para combinaciones de enrejados)
  • Se obtienen características de una forma más
    adecuada
  • Basada en la forma de combinar características

40
CARACTERÍSTICAS PARALELAS
Convencional todas las clases son igualmente
importantes
  • En LDA se rotan los vectores a un espacio donde
    las clases de vectores están separadas en forma
    máxima. El nuevo espacio depende de la clases ya
    definidas.

Características LDA algunas clases son más
importantes que otras
eigvec2
eigvec1
eigvec1
eigvec2
41
CARACTERÍSTICAS PARALELAS
Convencional todas las clases son igualmente
importantes
  • Las clases pueden ser, subpalabras, estados HMM,
    .etc
  • Idealmente éstas serían las clases en el nivel
    donde se combinan los valores
  • hemos escogido subpalabras como clases

Características LDA algunas clases son más
importantes que otras
eigvec2
eigvec1
eigvec1
eigvec2
42
CARACTERÍSTICAS PARALELAS EJEMPLO
Logspectra de dimensión 40
CH JH SH S Z D T R ER SIL NOISE
AA AW AO OW AE O AX AY E EH SIL NOISE
43
CARACTERÍSTICAS PARALELAS EJEMPLO
Logspectra de dimensión 40
Paso de eliminación de ruido
Espacio klt de 20 dim, vec propios calculados de
datos de entrenamiento limpios
LDA proyectada a 13 dim Con las clases clave CH
JH SH S Z D T R ER SIL NOISE
LDA proyecteda a 13 dim Con las clases clave AA
AW AO OW AE O AX AY E EH SIL NOISE
44
Combinaciones de hipótesis y de enrejados
  • Tasas de error con datos de TID

45
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com