Title: Procesamiento y Compresi
1Procesamiento y Compresión de Señales de Audio
- PROGRAMA DE POSGRADO EN
- SISTEMAS MULTIMEDIA
- Ángel de la Torre
2Organización
- Audición.
- Implantes cocleares.
- Reconocimiento robusto de voz.
- Presentación de trabajos.
- ( 1/2 hora y/o memoria)
- Transparencias en
- http//www.ugr.es/atv
- E-mail atv_at_ugr.es
3Reconocimiento robusto de voz
4Sistemas de reconocimiento automático de voz
(ASR) en ruido
- El ruido contamina la señal de voz en todas las
aplicaciones reales - Entorno de oficina (ventiladores, HDs, teclados,
gente, música.) - Línea de teléfono (entorno y línea)
- Telefonía móvil (además canal de radio y codec)
- ASR de voz adquirida en automóvil
- El ruido degrada ASR
5Consideraciones sobre el ruido en ASR
- En qué condiciones se va a adquirir la señal de
voz? - Métodos para robustecer el sistema frente al
ruido - ASR en ruido es una línea de investigación
importante
6Métodos de robustecimiento
- Principal problema mismatch train-reco
- Representaciones robustas
- Compensación de la voz ruidosa
- Adaptación de los modelos limpios
7Representación de la voz
- Voz cuasi-estacionaria en segmentos de 30-50 ms
(duración de los fonemas) - Información relevante para ASR características
espectrales de tiempo corto - Representaciones típicas para ASR cepstrum-FFT
cepstrum-LPC MFCC
8Representación de la voz MFCC
- Pre-énfasis
- Segmentación en frames (20 40 ms)
- Ventana de Hamming
- Banco de filtros en escala MEL (FBO)
- Escalado logarítmico (log-FBO)
- Transformada discreta del coseno (MFCC)
- Energía derivadas (Delta) segundas derivadas
(Delta-Delta)
9Efecto del ruido aditivo
- El ruido distorsiona el dominio log-FBO
10Distorsión del dominio log-FBO
11Distorsión del dominio log-FBO
12Distorsión PDFs
13Aleatoriedad del ruido
14Ruido y ASR
- Experimentos con voz contaminada artificialmente
- Ruido AWGN
- Tarea de dígitos conectados
- Retrain (adaptación ideal)
- Baseline (sin robustecimiento)
- Degradación debida a mismatch
- Degradación debida a pérdida de información
15Métodos para ASR robusto
- Representaciones robustas
- Ventanas de liftering (cepstrum-LPC)
- Proyección ceptral (cepstrum-LPC)
- Modelos auditivos
- Cepstrum en escala MEL (MFCC)
- Parametrizaciones discriminativas (LDA, DFE)
- Eliminación de variaciones lentas RASTA CMN
coeficientes Delta y Delta-Delta
16Métodos para ASR robusto (II)
- Compensación de la voz
- Mapeo lineal de parámetros
- Sustracción espectral / filtrado de Wiener
- Realce estadístico
17Métodos para ASR robusto (III)
- Compensación de los modelos
- Descomposición de HMM PMC
- Filtrado de Wiener dependiente del estado
- Adaptación estadística de los modelos
- Contaminación del corpus de entrenamiento
18Compensación del efecto del ruido basada en el
método de Monte Carlo
19Compensación del efecto del ruido
- Compensación en el dominio log-FBO
- Estimación del ruido en log-FBO usando un VAD
- Compensación canal por canal
20Compensación del efecto del ruido
- Estimación basada en método de Monte Carlo
- Generamos voz y ruido de acuerdo con las
probabilidades - Calculamos parejas voz-limpia voz-ruidosa
- Calculamos valor esperado de voz limpia dada la
voz ruidosa observada
21(No Transcript)
22Compensación del efecto del ruido
- Compensación definida como una función
- Implementación práctica interpolación lineal con
algunos puntos (k)
23(No Transcript)
24(No Transcript)
25Experimentos de reconocimiento
- Base de datos VODIS en francés
- Voz grabada en entorno de automóvil
- Condiciones reales de ruido
- Grabaciones con dos micrófonos
- Far-talk
- Close-talk
- Test siempre con Far-talk
- Diferentes condiciones de conducción
26Experimentos de reconocimiento
- Tarea de reconocimiento números de teléfono (en
francés) - Sistema de reconocimiento
- CHMM
- Cada palabra representada como un HMM de 10
estados - Cada estado es una pdf mezcla de Gaussianas
(entre 1 y 8 Gauss/estado) - Front-end MFCC
27Experimentos de reconocimiento
- Métodos comparados
- CMN
- Compensación en dominio log-FBO basada en método
de Monte Carlo - Adaptación de los modelos a las condiciones de
reconocimiento - Reentrenamiento en condiciones Far-Talk
28(No Transcript)
29Experimentos de reconocimiento (ruido añadido
artificialmente)
- Ruido AWGN
- Añadido artificialmente
- Dígitos conectados
- Baseline (CMN) y retrain como referencias
- Compensación Monte Carlo, VTS, UTS
30(No Transcript)
31Comentarios
- Con AWGN los resultados re-train y compensación
coinciden - Re-entrenamiento es óptimo
- Compensación es (casi) óptimo
- Con ruido real
- Re-entrenamiento es sub-óptimo
- Compensación es sub-óptimo
- Mejor solución compensación de ambos
32Resumen
- Importancia del ruido en aplicaciones del
Reconocimiento Automático de Voz - Importancia de los métodos de robustecimiento
- Mecanismos de degradación
- Mismatch (distorsión del espacio de repr.)
- Pérdida de información (aleatoriedad)
33Resumen (2)
- Métodos de robustecimiento
- Orientados a eliminar el mismatch
- Métricas robustas
- Compensación de representación
- Adaptación de modelos
- Experimentos ruido real / controlado
- Resultados
- Combinación de adaptación de modelos y
compensación de la representación