RECONOCIMIENTO DEL HABLA EN AMBIENTES GSM Y RUIDOSOS: PROGRESO Y ENFOQUES FUTUROS

About This Presentation

Title:

RECONOCIMIENTO DEL HABLA EN AMBIENTES GSM Y RUIDOSOS: PROGRESO Y ENFOQUES FUTUROS

Description:

natural durations. normalized durations ... Normalized duration: 5.3% WER. Relative Improvement: 36.9 ... Normalized duration: 3.7% WER. Relative Improvement: ... –

Number of Views:38

Avg rating:3.0/5.0

Slides: 46

Provided by: Richar8

Learn more at: http://www.cs.cmu.edu

Category:

more less

Transcript and Presenter's Notes

Title: RECONOCIMIENTO DEL HABLA EN AMBIENTES GSM Y RUIDOSOS: PROGRESO Y ENFOQUES FUTUROS

1
RECONOCIMIENTO DEL HABLA EN AMBIENTES GSM Y
RUIDOSOS PROGRESO Y ENFOQUES FUTUROS

Richard M.Stern
con Xiang Li, Jon Nedel, Mike Seltzer, y Rita
Singh
Department of Electrical and Computer Engineering
and School of Computer Science
Carnegie Mellon University
Pittsburgh, Pennsylvania 15213
Teléfono (412) 268-2535
Fax (412) 268-3890
rms_at_speech1.cs.cmu.edu
12 Febrero, 2002

2
Reuniones previos en este serie

29 Enero 1999, Madrid
30 Novembre 1999, Pittsburgh
10 Julio 2000, Madrid
6 Febrero 2001, Pittsburgh
16 Octubre 2001, Pittsburgh
12 Febrero 2002, Madrid

3
Agenda para hoy

Temas de hoy
Entrenamiento en paralelo (Singh)
Normalización de la duración de voz espontánea
(Nedel)
Técnicas de parámetros perdidos (Seltzer, Li,
Raj)
Combinación de los grupos complementarios de
parámetros (Singh, Li)
Otras temas no discutido hoy en detalle
Progreso clásico en codificación GSM (Huerta)
Reconocimiento de voz codificada (Singh)
Arreglos de micrófonos usando parámetros óptimos
(Seltzer)
Discusión general

4
Entrenamiento en paralelo el problema

El entrenamiento consiste en la interacción de
dos pasos
Estimación de las fronteras de los estados de los
segmentos usando estimaciones conocidas
(fronteras dura por Baum Welch
Estimación de nuevos parámetros distribuidos para
los estados, a partir de los datos dentro estados
de los segmentos estimados
En ruido, la determinación de las fronteras de
los segmentos es difícil
Resultados muestran falta de datos de otros
estados en cualquier estado, con la consecuente
estimación pobre de los parámetros distribuidos
del estado
Nueva estimación de las fronteras de los
segmentos con pobres modelos estimados es lo que
alivia este problema

5
Entrenamiento en paralelo la solución

Use datos en paralelo limpios para estimar las
fronteras entre segmentos
Use las estimaciones de las fronteras con datos
limpios y con voz ruidosa, para calcular los
modelos de voz ruidosa

6
Entrenamiento en paralelo experimentos

Habla limpio fue corrompido por 5 tipos de ruido
aditivo
Ficheros usado para corromper los datos de de
entrenimiento y prueba fueron diferentes
Ejemplos
Limpio
Bares
Metro
Música
Tráfico

7
Detalles de los experimentos

CD-HMMs con 8 gausianos/estado 400 tied states
Topología HMM con tres estados sin saltar
Entrenamiento con 4 horas de datos (3458 frases)
Prueba con 2 horas de datos (1728 frases)

8
Promedios de las relaciones señal a ruido

Relación señal a ruido, dB

Bares Metro Música Tránsito
Entrenemiento -2.70 -8.17 -5.53 -4.47
Prueba 0.56 -14.1 -6.50 -1.15
9
Relación señal a ruido, datos bares

Entrenamiento Prueba

10
Entrenamiento en paralelo resultados

Tasa de error con entrenamientos diferentes

Entrenemiento
Limpio
Igualido
Paralelo
Paralelo_SNR
11
Resumen entrenamiento paralelo

El Entrenamiento paralelo pueda bajar la tasa de
error mucho
pero .
La tasa de error depende en la relación señal a
ruido
La tasa de error depende en alinear los dos
fuentes de habla
La codificación dispersa las representaciones de
las señales
Comentario Necesitamos un base de datos de con
habla limpio y habla codificado en el ruido para
resolvar este tema

12
Normalización de duración

Proceso de normalización de la duración
Resultados usando la segmentación de oracle
Aspectos de la base de datos
Técnicas propuestas de segmentación automática

13
Es problemático modelar la duración de fonemas
espontáneos con HMMs

HMMs no modelan bien la duración de fonemas en
voz natural
las probabilidades de transición tienen poco
impacto en la hipótesis final
la información sobre la duración derivada de las
probabilidades de transición no corresponden en
forma precisa con las medidas de duración
(Siegler Stern)
Cada vez que se produce un fonema en habla
continua, se produce con diferente duración
dependiendo en el contexto fonético, registro de
voz, velocidad de la voz y énfasis, etc.

14
Normalización de la duración y HMMs

Efectos de la normalización de la duración
la duración de los fonemas se convierte a
determinística
se reducen las variaciones del modelo en los
fonemas
se mejora la precisión en el reconocimiento de
voz espontánea

15
Como se normaliza la duración

Para fonemas largos, se submuestrea la secuencia
de tramas

Para fonemas cortos, se expande el fonema en
tiempo y se reconstruyen las porciones perdidas
usando métodos basados en correlación

16
Ejemplo de voz antes y después de normalización
de la duración
natural durations
normalized durations
17
Resultados de los experimentos usando límites de
oracle en los fonemas

Normalización de la duración en TID (marzo)
13086 palabras de prueba

TID baseline 8.4 WER Normalized duration
5.3 WER Relative Improvement 36.9

Normalización de la duración en TID (actual)
7634 palabras de prueba

TID baseline 5.3 WER Normalized duration
3.7 WER Relative Improvement 30.2
18
Problemas en la base de datos

Ejemplos problemáticos
palvoc second voice pronounces words in the
vocab
bas intelligible OOV words
vocess unintelligible voices
pac cut off word
Ejemplos
bas siete euros y veinti nueve bas
(2094M006)
bas quinientos veinti cinco bas (2263S129)

19
Problemas en la base de datos (2)

Los resultados de WER usando transcripciones de
referencia que contienen puntos problemáticos no
reflejan que la normalización de la duración sea
efectiva en la base de TID
Se han reducido los conjuntos de entrenamiento y
de prueba en un 50 para extraer repeticiones
cuestionables
Idealmente, todas las repeticiones con puntos
problemáticos deben ser transcritas nuevamente
para incluir texto adecuado en todas las palabras
inteligibles
Pregunta
Cómo quiere Telefónica que se manejen y se
prueben estas repeticiones ?

20
El problema de segmentación

El mejorar las fronteras de segmentación
resultará en mejorar la tasa de reconocimiento

21
Estimación de fronteras

Técnicas propuestas
Segmentación jerárquica
Segmentación basada en el conocimiento
(Knowledge-based segmentación )
Segmentación mejorada y basada en HMM
También se trabaja en combinar estas técnicas
Segmentación de alta calidad
Medida de verosimilitud para estimar cada frontera

22
Estimación de fronteras Segmentación jerárquica
Dendograma una representación multinivel que
permite al sistema capturar cambios graduales y
abruptos de la señal
23
DendrogramaEjemplo de segmentación

El dendrograma proporciona segmentación correcta

24
Dendrograma Aspectos a resolver

El dendrograma proporciona una segmentación
adecuada
Procedimiento propuesto para obtener una
segmentación adecuada
Enumerar las posibles segmentaciones
Reducir segmentaciones usando el criterio de
longitud en éstas
Aplicar la normalización de la duración y
decodificación a las segmentaciones restantes
Escoger la hipótesis correcta con una función
objetivo
Posible función objetivo
Verosimilitud normalizada de las hipótesis
resultantes (para compensar el número variable
de tramas en las distintas segmentaciones)

25
Estimación de fronteras Segmentación basada en
HMM enfocado en el centro del fonema

La región central de un fonema es generalmente
más estable que las transiciones entre fonemas
Hipótesis el método de normalización de la
duración no es tan sensible a las fronteras
obtenidas con el método del centro del fonema

26
Estimación de fronteras Segmentación mejorada y
basada en HMM

Se usan HMMs y el algoritmo de Viterbi para
proponer una segmentación de fonemas hipóteticos
La búsqueda consiste en salir del estado final de
algunos fonemas en tiempos inapropiados
Se entrenan las penalidades de salida
dependientes del contexto en la gráfica de
búsqueda de Viterbi para mejorar las ubicaciones
de las fronteras

27
Estimación de fronteras Segmentación basada en
el conocimiento

Se pretende usar medidas de coherencia espectral
para segmentar la voz en unidades básicas
consistentes
Separemos la voz en bandas de frecuencia técnicas
de detección landmark y usar características que
dependen en el contexto

28
Resumen normalización de duración

El método de normalización de la duración es
viable para la base TID ( tiene un potencial de
30 de mejora relativa para un sistema base con
WER de 5.3)
Se requiere resolver los ejemplos problemáticos
Se ha construido redes basadas en dendogramas que
contienen las segmentaciones correctas
Se está trabajando en encontrar una forma
automática de extraer las segmentaciones
adecuadas
Se han propuesto otros esquemas de segmentación
Hemos mejorado la tasa de identificar fronteras
de fonemas, pero no bastante para mejorar la tasa
de error

29
Llenado de parámetros perdidos

En Carnegie Mellon se modifican los parámetros de
entrada en lugar de los modelos internos (esto
último es lo realizado en Sheffield)
Por qué se modifican los parámetros de entrada?
Un conjunto de parámetros más flexible (pueden
usarse parámetros cepstral en lugar de log
spectral)
Un procesamiento más simple
No hay necesidad de modificar el reconocedor

30
Reconocimiento usando cepstra compensado y voz
contaminada por ruido blanco
Cluster Based Recon.
Spectral Subtraction
Temporal Correlations
Accuracy ()
Baseline
SNR (dB)

Mejoras substanciales en el reconocimiento se
obtienen al reconstruir regiones corruptas en
espectogramas con voz ruidosa
Se requiere de la localización de parámetros
perdidos

31
Reconocimiento con máscaras

Voz más ruido blanco

32
Reconocimiento con máscaras

Voz más ruido de fábricas

33
Reconocimiento con máscaras

Voz más música

34
Reconocimiento de la base de Telefónica con
ruido de tráfico

Algoritmos de parámetros perdidos mejora la WER
para SNRs bajas

35
Reconocimiento con caracteristícas perdidas Mas
resultados con el base de datos rueda
Baseline
Spec sub
MF Classifier
MF SpecSub
Oracle
Procesamiento del vector diferencia del espectro
36
Combinación de caracteristícas en entornos
difíciles

Motivación A medida que el ambiente es más
ruidoso las personas que escuchan obtienen
información adicional de la señal deseada
Premisa Cuando los ambientes ruidosos están
fuera de nuestro control es mejor extraer más
información de la señal que del ruido
Hay que analizar la señal desde diferentes
perspectivas
Múltiples perspectivas de la señal equivalen a
multiples características que la representan
Se combinan hipótesis de reconocimiento de las
representaciones paralelas de la señal

37
CARACTERÍSTICAS PARALELAS PARA AMBIENTES RUIDOSOS

En el 2000, el reconocimiento se realizó en la
base TID usando características seleccionadas
ad-hoc
Algunos resultados previos son

Feature
WER()
38
COMBINACIÓN DE HIPÓTESIS EN EL 2000

Las hipótesis en paralelo se generaron y
combinaron
Se añadieron lazos entre las hipótesis en las
transiciones con tiempos comunes de transición
La gráfica de búsqueda se formó de la siguiente
manera usando LM

39
SISTEMAS DE COMBINACIÓN EN PARALELO

Se generalizan las combinaciones de hipótesis
Combinaciones de hipótesis o combinaciones de
enrejados (lattice)
Las salidas del reconocimiento se combinan de
sistemas múltiples en una gráfica (para
combinaciones de hipótesis) o en grandes gráficas
(para combinaciones de enrejados)
Se obtienen características de una forma más
adecuada
Basada en la forma de combinar características

40
CARACTERÍSTICAS PARALELAS
Convencional todas las clases son igualmente
importantes

En LDA se rotan los vectores a un espacio donde
las clases de vectores están separadas en forma
máxima. El nuevo espacio depende de la clases ya
definidas.

Características LDA algunas clases son más
importantes que otras
eigvec2
eigvec1
eigvec1
eigvec2
41
CARACTERÍSTICAS PARALELAS
Convencional todas las clases son igualmente
importantes

Las clases pueden ser, subpalabras, estados HMM,
.etc
Idealmente éstas serían las clases en el nivel
donde se combinan los valores
hemos escogido subpalabras como clases

Características LDA algunas clases son más
importantes que otras
eigvec2
eigvec1
eigvec1
eigvec2
42
CARACTERÍSTICAS PARALELAS EJEMPLO
Logspectra de dimensión 40
CH JH SH S Z D T R ER SIL NOISE
AA AW AO OW AE O AX AY E EH SIL NOISE
43
CARACTERÍSTICAS PARALELAS EJEMPLO
Logspectra de dimensión 40
Paso de eliminación de ruido
Espacio klt de 20 dim, vec propios calculados de
datos de entrenamiento limpios
LDA proyectada a 13 dim Con las clases clave CH
JH SH S Z D T R ER SIL NOISE
LDA proyecteda a 13 dim Con las clases clave AA
AW AO OW AE O AX AY E EH SIL NOISE
44
Combinaciones de hipótesis y de enrejados