Title: An
1Análisis y modelado de sistemas. Predicción
lineal.
- Mecanismos de producción de la voz
- Análisis LPC
2- Teoría de producción de la voz
- Estudio científico
- Modelo ingenieril
- Análisis LPC
- Predecir una muestra a partir de las anteriores
- Calcular la mejor Combinación Lineal Predictora
- InvertirSíntesis desde señal error sin
información - Parámetros equivalentes
3Producción de voz
- Voz
- Es la onda acustica radiada cuando una
constricción del tracto vocal perturba el flujo
de aire expulsado por los pulmones
4Teoría de la producción de voz
- Sonidos sonoros
- El flujo de aire procedente de los pulmones es
periódicamente interrumpido por la apertura y
cierre de las cuerdas vocales. - Flujo periódico, frecuencia fundamental F0 -gt
pitch - Sonidos sordos
- No vibran las cuerdas vocales
- El flujo de aire encuentra un
- Estrechamiento ? toma gran velocidad ? forma
turbulencias - Tracto vocal Tracto nasal
- Actúan como cavidades resonantes
- Frecuencias de resonancia ? Formantes
- Los formantes dependen de la forma y dimensiones
del TV ? El espectro de la voz varía con el
tiempo al varíar el TV
5Teoría de la producción de voz
Pulso de Rosenberg
g(t)
G(f)
6Teoría de la producción de voz
- Modelo de Fuente y Tracto vocal
- Separa las características de la fuente y del
tracto vocal. - Funciona mejor con parametros que varían
lentamente. - Filtro V(z) todo polos solo tiene resonancias
no, modela las nasales. - Separa fuente sonora y sorda
- no vale para todos los sonidos
- Cambio repentino de tipo de fuente no es realista
7Teoría de la producción de voz
- Tracto vocal ?? tubo de sección variante y no
uniforme
- Aproximación concatenación de tubos de secciones
Ak constantes
8Teoría de la producción de voz
- Longitud de onda mayor que la longitud del tubo
- f5000Hz l340m/s/5000Hz68cm
- Aproximación de onda plana aceptable
- Además se supone
- No hay pérdidas por rozamiento ni por conducción
de calor - Las secciones Ak no cambión con el tiempo
9Teoría de la producción de voz
- Con estas suposiciones, las ondas en el tubo
cumplen estas ecuaciones - Puesto que el área en una sección es constante
pp(x,t) Variación de la presion uu(x,t) Variació
n del flujo de aire r Densidad del
aire c Velocidad del sonido AA(x,t) Función de
área
10Teoría de la producción de voz
- Analogía electrica línea de transmisión uniforme
y sin pérdidas
11Teoría de la producción de voz
- Solución de las ecuaciones diferenciales
12Teoría de la producción de voz
Tiempo de recorrido de una sección
Condiciones de continuidad
lk
lk1
Se obtienen las ecuaciones
Coeficiente de reflexión rklt1
Diagrama de flujo que corresponde a estas
ecuaciones
13Teoría de la producción de voz
- Condiciones de contorno
- En los labios
- En la glotis
- Para modelar los labios
- Pantalla acústica esférica
- Difícil de modelar
- Pantalla acústica plana
14Teoría de la producción de voz
- Condiciones de contorno en los labios
- Velocidad de partícula, en los labios
- Diagrama de flujo que corresponde a esta ecuación
rL coeficiente de reflexión en los labios ZL
impedancia de radiación en los labios
15Teoría de la producción de voz
- Condiciones de contorno en la glotis
- Diagrama de flujo que corresponde a esta ecuación
rG coeficiente de reflexión en la glotis ZG
impedancia de la glotis
16Teoría de la producción de voz
- Modelo de tubo sin pérdidas completo
17Teoría de la producción de voz
- Modelo de tubo sin pérdidas completo
18Teoría de la producción de voz
- Modelo de tubo sin pérdidas completo
- Todos los tubos de igual longitud
Dx Longitud de los tubos N Número de tubos
l Longitud del tracto vocal t Retardo en un tubo
19Teoría de la producción de voz
- Sistema discreto equivalente
- Sistema discreto equivalente con retardos enteros
20Teoría de la producción de voz
Línea continua terminación en cortocircuito
21Teoría de la producción de voz
22Teoría de la producción de voz
23Análisis LPC
- Análisis por Predicción Lineal (Linear Predictive
Analysis) - Técnica eficaz para analizar la voz
- Estima el espectro de la voz de forma
- Precisa
- Eficiente
- Idea básica una combinación lineal de muestras
de voz pasadas es buena aproximación de la
muestra siguiente
24Análisis LPC
- El análisis LPC (Linear Predictive Coding)
- Predice los polos que modelan el tracto vocal
- Mediante pocos párametros
- Obtenidos por cálculos sencillos
25Análisis LPC
- Sean s(n) las muestras de voz tomadas cada Ts
seg. - Tslt1/2?m, ?m frecuencia máxima de la señal
-
-
s(n)
s(n-p)
P1
Formamos una combinación lineal de P
muestras a1s(n-1)a2s(n-2)aps(n-p)
s(n) e(n) s(n) - s(n)
26Análisis LPC
- Si e(n) es una variable estadística incorrelada
(media 0 y varianza s2)
27Análisis LPC
- Si e(n) es una variable estadística incorrelada
(media 0 y varianza s2)
s(n) es una buena aproximación de s(n)
28Análisis LPC
- Si e(n) es una variable estadística incorrelada
(media 0 y varianza s2) - Error cometido en la predicción, residuo
s(n) es una buena aproximación de s(n)
29Análisis LPC
Transformada Z
30Análisis LPC
_
Error de predicción
P(z)
transformada Z
A(z)
31Análisis LPC
H(z)1/A(z)
P(z)
H(z) modela la respuesta del tracto
vocal e(n) es la excitación, la fuente de sonido
32Análisis LPC ejemplos E
Segmento de una e, enventanado hamming
FFT de la señal y espectro LPC de orden 14
Error de predicción
Espectro del error
33Análisis LPC ejemplos S
Segmento de una s, enventanado hamming
FFT de la señal y espectro LPC de orden 14
Error de predicción
Espectro del error
34Cálculo de los coeficientes LPC
- Criterio para calcular los coeficientes del
filtro predictor P(z) - Minimizar el error cuadrático medio
mínimo
35Cálculo de los coeficientes LPC
- Para calcular la solución en el intervalo n0 n1
son necesarias la muestras de la señal del
intervalo n0-p n1 - Basandose en un conjunto de N muestras se han
investigado dos métodos de resolución - Método de las autocorrelaciones
- Método de las covarianzas
Sistema de ecuaciones linealesp ecuacionesp
incógnitas
36Cálculo de los coeficientes LPC
- Método de las autocorrelaciones
- El error se minimiza en el intervalo -8 8
- Se supone señal nula en nlt0 y ngtN-1
37Cálculo de los coeficientes LPC
- Método de las autocorrelaciones
- El error se minimiza en el intervalo -8 8
- Se supone señal nula en nlt0 y ngtN-1
Muestras usadas
s(mi-j)
s(m)
i-j
E minimo en n0 n1
38Cálculo de los coeficientes LPC
- Método de las autocorrelaciones
R(k) es par
Las ecuaciones a resolver son
Ecuaciones deYule-Walker
R
39Cálculo de los coeficientes LPC
- La matriz R es Toepliz
- Simétrica
- Los elementos en las diagonales paralelas a la
diagonal principal son iguales - El método de Durbin aprovecha estas propiedades
de la matriz R - Como s(n)0 para nlt0 y ngtN-1, e(n) será grande en
0ltnltp pues la predicción se basa en muestras que
han sido puestas a cero. - Ocurre lo mismo en el intervalo final NltnltNp-1
- Para reducir este efecto se enventana la señal
40LPC koefizienteak
- Para obtener la solución algoritmo de
Levison-Durbin
ki
41Cálculo de los coeficientes LPC
- Método de las covarianzas
- Se minimiza el error en el intervalo p, N-1
- Se utilizan todas las muestras de la señal
42Cálculo de los coeficientes LPC
- Método de las covarianzas
- Se minimiza el error en el intervalo p, N-1
- Se utilizan todas las muestras de la señal
43Cálculo de los coeficientes LPC
- Método de las covarianzas
- La matriz f
- Es definida positiva
- Se puede resolver por métodos eficientes
(descomposición de Cholesky)
Las ecuaciones a resolver
44Análisis LPC
A(z)
_
P(z)
45Análisis LPC
46Análisis LPC
47Análisis LPC
48Análisis LPC
49Análisis LPC
50Análisis LPC ejemplos
Ruido blanco, G100
Ruido blanco, G50
x
Tren de deltas G100
P(z)
Gi
Tren de deltas G50
51Parametrización de la voz
- Análisis de la señal de voz
- Análisis LPC
- Análisis PARCOR
- Análisis CEPSTRUM
- Vocoder LPC
- Análisis por síntesis
52Análisis PARCOR
- PARtial CORrelation coefficients
- ei(n) es el error de predicción del método
Levinson-Durbin en el paso i - forward prediction error
- bi(n) se define de forma similar
- backward prediction error
s(n) se predice como combinación lineal de i
muestras anteriores
s(n-i), se predice como combinación lineal de i
muestras posteriores
53Análisis PARCOR
- Sistema predictor de orden i
- Relación entre coeficientes de sistemas
predictores de distinto orden - Si la entrada al sistema predictor es s(n), la
salida es ei(n)
54Análisis PARCOR
- Sistema predictor de orden i
- Relación entre coeficientes de sistemas
predictores de distinto orden - Si la entrada al sistema predictor es s(n), la
salida es ei(n)
55Análisis PARCOR
- Sistema predictor de orden i
- Relación entre coeficientes de sistemas
predictores de distinto orden - Si la entrada al sistema predictor es s(n), la
salida es ei(n)
56Análisis PARCOR
Transformada inversa
Transformada inversa
Estas ecuaciones recursivas corresponden a un
filtro lattice
57Análisis PARCOR
- Cálculo de los coeficientes ki
- Estos coeficientes se pueden usar para generar
voz
e(n) eta b(n) seinaleen arteko korrelazio
normalizatua
puesto que s(n)e0(n), se puede generar la señal
de voz usando ep(n)
58Análisis PARCOR
- Usando la configuración Lattice se han
desarrollado otros métodos de síntesis - Método de Burg minimiza la suma de los errores
forward y backward - Se llega a esta ecuación para los coef. PARCOR
Con esta expresión se cumple siempre kilt1.
Se garantiza la estabilidad del filtro
59Comparación de métodos
Covarianzas Cholesky Autocorrelaciones Durbin Lattice Burg
Memoria Datos Matriz correl. Ventana
Memoria Datos Matriz correl. Ventana N1 N2 3N3
Memoria Datos Matriz correl. Ventana µ p2/2 µ p --
Memoria Datos Matriz correl. Ventana -- N2 --
Productos Enventanado Correlación Solución
Productos Enventanado Correlación Solución -- N2 --
Productos Enventanado Correlación Solución µ N1p µ N2p --
Productos Enventanado Correlación Solución µ p3 µ p2 5N3p
Estabilidad Puede ser inestable Estable si R(i) se calcula con suficiente precisión Estable
60Bibliografía
- Huang, X., Acero, A., Hon, H.
- Spoken Language Processing
- Prentice Hall, 2001
- Rabiner, L.R., Schafer, R.W.
- Digital Processing of Speech Signals
- Prentice Hall, 1978
- OShaughnessy, D.
- Speech Communications Human and Machine
- IEEE Press, 2000
- Dutoit, T.
- An introduction to Text-to-Speech Synthesis
- Kluwer Academic Publishers, 1997
- J. Makhoul
- Linear Prediction A tutorial review
- Proc. of the IEEE, 1975