Title: Procesamiento y Compresi
1Procesamiento y Compresión de Señales de Audio
- PROGRAMA DE POSGRADO EN
- SISTEMAS MULTIMEDIA
- Ángel de la Torre
2Organización
- Audición.
- Implantes cocleares.
- Reconocimiento robusto de voz.
- Presentación de trabajos.
- ( 1/2 hora y/o memoria)
- Transparencias en
- http//www.ugr.es/atv
- E-mail atv_at_ugr.es
3Implantes cocleares
4cadena de huesecillos
nervio auditivo
cóclea
ventana
redonda
ventana oval
tímpano
5Percepción auditiva
cóclea
cóclea desenrollada
6Percepción de la voz
Representación de la voz en el nervio auditivo
Adquisición de la voz
respuesta
Aparato auditivo
Producción de voz
Aparato fonador
7Percepción de la voz con I.C.
Representación de la voz en el nervio auditivo
Adquisición de la voz
respuesta
Implante Coclear
Producción de voz
Aparato fonador
8(No Transcript)
9Imagen Rx de un implante
10(No Transcript)
11Sistemas de petaca y retroauricular
12Cuándo es necesario el I.C.(criterios de
selección de candidatos)
- Sordera neurosensorial
- No en sordera retrococlear Implante de tronco
cerebral - No en sordera de transmisión (Pérdidas
moderadas) Prótesis auditivas, reconstrucción
cadena huesecillos - Sordera bilateral profunda
- Incapacitante para comprensión de voz
13Criterios de Inclusión Adultos
- Sordera neurosensorial severa a profunda
- Sordera neurosensorial severa a profunda de 90 dB
o peor a 500 Hz, 1000Hz y 2000Hz sin prótesis en
ambos oídos. - Estabilidad psicológica y expectativas realistas
- Fluidez en lenguaje con comprensión de lectura y
escritura. - Sin beneficio significativo de la amplificación
en las mejores condiciones de adaptación
posibles. - Puntuación menor o igual al 40 en frases sin
apoyo. - Duración de la sordera en ambos oídos menor de 25
años.
14Criterios de Inclusión Niños
- Pérdida neurosensorial profunda bilateral con
umbrales de 90dB o mayores a 1000 Hz sin
beneficio funcional con audífono. - Menores de 2 años mostrarán evidencias
electrofisiológicas de sordera bilateral
profunda. - Deben completar un periodo de 3 a 6 meses con
amplificación apropiada paralelamente a un
programa de rehabilitación intensivo previo a I.C.
15Umbrales auditivos prequirúrgicos
16Aportaciones del I.C.
- Percepción de la voz
- Percepción de otros sonidos
- Limitaciones
- Objetivo comunicación oral
- Desarrollo lingüístico en niños
- Comunicación en adultos
- Funcionamiento del I.C.
17La señal de voz
/sal/
18La señal de voz
/s/
/a/
/l/
19Espectro de las vocales
/i/
/a/
/o/
/a/ cerrada
/u/
/e/
20Espectro de las vocales
/i/
/a/
/o/
/a/ cerrada
/u/
/e/
21Formantes 1º y 2º en vocales
22Espectro de consonantes sonoras
/m/
/l/
/n/
/y/
/ñ/
/R/
23Espectro de consonantes fricativas
/s/
/z/
/sh/
/f/
/ss/
/j/
24Fonemas no estacionarios
- Fonemas estacionarios
- vocales /a/ /e/ /i/ /o/ /u/
- consonantes sonoras /l/ /y/ /R/ /m/ /n/ /ñ/
- consonantes fricativas /s/ /sh/ /ss/ /z/ /f/ /j/
- Fonemas no estacionarios
- Plosivas sordas /p/ /t/ /k/
- Plosivas sonoras /b/ /d/ /g/
- Otras consonantes /ch/ /r/
25Espectrograma (representación tiempo -
frecuencia)
26Espectrograma (representación tiempo -
frecuencia)
m b o i a kom p r a R p a n
27Información relevante de la señal de voz
- Para reconocimiento de voz
- Envolvente espectral (formantes)
- Evolución temporal de los formantes
- Información espectral de tiempo corto
- Información complementaria
- Tono fundamental
- Estructura fina del espectro
28Cómo funciona el oído
- Extrae información de la señal de audio.
- Envía la información al cerebro en forma de
estímulos nerviosos. - El implante coclear trata de imitar el mecanismo
de conversión del sonido en potenciales de acción.
29Características del oído humano
- Configuración de la cóclea
- 6.000 células ciliadas internas
- 40.000 terminaciones nerviosas
- Repolarización 2 ms (400 - 500 disparos/seg)
- Conexión sináptica sin interacción entre canales
- Capacidad de un oído entrenado
- Resolución espectral 1/9 tono
- Resolución temporal 400 - 500 Hz
- Resolución de intensidad 1 dB
30Capacidad del oído humano
- Resolución en frecuencia 1/9 tono
- fo - 1.013fo 450 Hz - 456 Hz
- rango de frecuencia 20 Hz - 20.000 Hz
- Resolución en el tiempo
- limitado por tiempo relajación de células
ciliadas y terminaciones nerviosas (400 disparos
por seg.) - Resolución en intensidad
- Unos 10 niveles de intensidad entre THR-MCL
asociados a las distintas terminaciones de cada
neurona - Mecanismos de adaptación.
31Limitaciones del implante coclear
- No hay conexión sináptica
- Un electrodo estimula muchas fibras
- Si se estimulan simultáneamente varios electrodos
hay interferencia entre canales - Consecuencias
- Pocos electrodos (se representa sólo la
envolvente espectral) - Alta tasa de estimulación
- En cada instante sólo se estimula un canal
32Percepción con Implante Coclear
- Implante varios electrodos (muchos menos de
4000) - Por qué no más electrodos?
- Intervalo de frecuencia 200 Hz - 8500 Hz
- Respuesta en el tiempo 1500 ... 3000
disparos/seg. - Respuesta a los distintos niveles de intensidad
33Diseño de los Implantes Cocleares
- Limitaciones acoplamiento entre electrodos y
terminaciones nerviosas - Limitaciones
- procesamiento de señal
- comsumo
- tamaño
- Posibilidades y límites sonidos / voz
34Cómo oye un implantado?
- No se puede saber
- Sólo unos pocos pacientes están en condiciones de
hacer comparaciones - Observación indirecta (qué son capaces de hacer)
- Teniendo en cuenta todo el proceso de
estimulación se puede sintetizar la señal tal y
como la oiría un implantado
35Aportaciones del Implante Coclear
- Percepción auditiva con calidad suficiente para
comprensión del habla (sin ruido) - Para ello, antes hay que desarrollar....
- habilidades perceptuales
- habilidades lingüísticas
- Comprensión de la voz en ruido difícil
- Percepción de los distintos sonidos, música
- proporciona toda la información temporal que un
oído normal puede percibir (poca resolución
espectral)
36Estrategias de codificación
- Analógicas
- Compressed Analog (Clarion)
- Pulsátiles
- Extracción de características
- F0/F1/F2 (Cochlear)
- MPEAK (Cochlear)
- Híbridas
- SMSP / SPEAK (Cochlear)
- N-of-M (Medel)
- Forma de onda
- ACE / CIS / CIS (Cochlear Clarion Medel)
37Estrategias Pulsátiles (Digitales)
Forma de onda CIS CIS
Extracción de Características MPEAK F0/F1/F2 F0/F2
IP1
Híbridas n-of-m ACE SPEAK SMSP IP2
38Compressed Analog
Banco de filtros
Ajuste de niveles
Adquisición de la señal
Estimulación
39Compressed analog
- Estimulación analógica (no pulsátil)
- Estimulación simultánea de todos los electrodos
(interacción entre canales) - Estimulación bipolar
- Campo eléctrico de cercanía
40F0 / F1 / F2
- Estima parámetros
- F0 tono fundamental (frecuencia)
- F1 primer formante (frecuencia y amplitud)
- F2 segundo formante (frecuencia y amplitud)
- Estimula dos electrodos en cada ciclo
- los correspondientes a las frecuencias F1 y F2
- con las amplitudes estimadas para F1 y F2
- con la tasa de estimulación asociada a F0
41F0 / F1 / F2
42F0 / F1 / F2
Selecciona uno entre canales 6-20
Selecciona uno entre canales 1-5
43MPEAK (Multi Peak)
Electrodo 20
4 k - 6 k
Ajuste de niveles
Electrodo 17
2.8 k - 4 k
Electrodo 14
2 k - 2.8 k
Generador de estímulos
F2
F2 800 - 4 k
A2
F1
F1 300 - 1 k
Generador de estímulos
A1
F0 0 - 270
Generador de pulsos
Selección de electrodos
Adquisición de la señal
Extracción de características
Estimulación
44Extracción de características
- Presentan la información esencial para percibir
la voz - Tono fundamental (F0)
- Primer y segundo formante
- Representación pobre de la voz
- Sensibilidad a estimación de F0, F1 y F2
- Respuesta pobre en condiciones de ruido
45SMSP, SPEAK y N-of-M
46- Implementaciones (alta tasa de estimulación)
- SMSP en cada ciclo, 6-de-16 canales
- SPEAK en cada ciclo, 6-de-20 canales
- N-of-M en cada ciclo, 2-de-12 a 11-de-12
- Ventajas
- Mejor representación que extracción de carac.
- Menos sensible a ruido de fondo
- Inconvenientes
- Se pierde información (canales con menos energía)
- Compromiso
- Número de canales - tasa de estimulación
47CIS Continuous Interleaved Sampling
48- Implementaciones (alta tasa de estimulación)
- ACE (Nucleus) hasta 8 canales
- CIS (Clarion) hasta 8 canales
- CIS (Medel) hasta 12 canales
- Ventajas
- Todos los electrodos estimulados en cada ciclo
con alta tasa de estimulación - Mejor representación de la señal de audio
- Mejor resolución en intensidad
- Mayor sensibilidad
49- Tendencias en estrategias de codificación
- Reducir extracción de características
- Alta tasa de estimulación
- Todas las estrategias actuales (CA, SPEAK, CIS)
proporcionan resultados satisfactorios - Envolvente espectral
- Resolución temporal
- Resolución en intensidad
- Prestaciones
- Representación audio suficiente para comprender
voz - Limitaciones música y ruido
- Los implantes en el futuro
50Qué es programar el I.C.?
- Ajustar los parámetros del sistema de implante
coclear para que el paciente obtenga un
aprovechamiento óptimo - Parámetros de estimulación
- Parámetros de representación del sonido
51Montaje para programar I.C.
Transmisor
Interface
Procesador
Ordenador para acceder al procesador
52Programación del procesador
- Parámetros ajustables
- conexión de electrodos
- niveles de estimulación en cada electrodo
- Umbrales de percepción THR
- Máximos niveles de confort MCL
- parámetros especiales
- Objetivos
- adaptar la estimulación a los valores
particulares de cada paciente - proporcionar la máxima calidad de audición
53Importancia del ajuste
- Electrodos activados
- La banda útil se reparte entre los electrodos
activos. Si un electrodo no es funcional debe
desconectarse - Umbrales de percepción
- Para tener sensibilidad (20 - 30 dB) y para poder
discriminar niveles de volumen - Máximos niveles de confort
- Para escuchar los sonidos fuertes (80 - 110 dB)
fuertes pero sin llegar a sensación de dolor
54Dificultades del ajuste
- Colaboración paciente - programador
- Capacidad / tiempo de atención del paciente
- Capacidad de expresión del paciente
- Descripción del paciente subjetiva
- Tolerancia del paciente a imprecisión
- Evolución fisiológica del paciente
- Objetivos mínimos cubiertos
55Influencia de la programación en la capacidad de
percepción
- El número de electrodos
- rango de frecuencia
- Electrodos no funcionales conectados
- excepciones transitorias
- Electrodos con estimulaciones colaterales
- Sobre-estimación de umbrales
- Infra-estimación de umbrales
- Desajustes de MCL
56Parámetros ajustables
- Parámetros de estimulación
- Determinación de electrodos funcionales
- Rango dinámico de cada electrodo umbral y máximo
nivel de confort - Parámetros de representación del sonido
- Modo de estimulación
- Estrategia de codificación
- Bandas de frecuencia asignadas a electrodos
- Tasa de estimulación
- Mapeo de intensidad, volumen, sensibilidad
57Determinación de electrodos funcionales
- Electrodos dentro de la cóclea
- Electrodos dentro de la cóclea en zona poco
inervada - Electrodos fuera de la cóclea
- Estimulación colateral
58Rango dinámico de cada electrodo
- Rango dinámico eléctrico es el intervalo
comprendido entre - Umbral (THR) mínima estimulación eléctrica que
detecta el paciente - Máximo nivel de confort (MCL) máxima
estimulación eléctrica que tolera el paciente - El rango dinámico debe establecerse para cada
electrodo independientemente
59- Mapeo del rango dinámico acústico al eléctrico
60Ejemplo de rango dinámico
Ecualización de canales
61Ejemplo de rango dinámico
Crecimiento de niveles en zona basal
62Parámetros relacionados con la representación del
sonido
- Modo de estimulación
- Estrategia de codificación
- Bandas de frecuencia asignadas a electrodos
- Tasa de estimulación
- Mapeo de intensidad
- Volumen
- Sensibilidad
- Programas para situaciones especiales
63Modo de estimulación
- Configuración eléctrica de los electrodos
64Modo de estimulación
- Distribución de la corriente eléctrica
65Estrategia de codificación
- Clarion
- Compressed Analog
- CIS
- Cochlear
- MPEAK
- SPEAK
- ACE
- Medel
- N-of-M
- CIS
66Bandas de frecuencia asignadas a electrodos
- Rango espectral
- Distribución de los filtros en frecuencia
- (Ancho de banda y frecuencia central de cada
canal) - Lineal, logarítmica, lin-log....
- Elegida libremente por el programador
67Tasa de estimulación
- Es el número de estímulos por segundo en cada
electrodo - Mejor cuanto más alta
- Tiempo de repolarización 2ms
- Conviene que sea superior a 800 o 1000 disparos
por segundo - Limitada por
- Tecnología del procesador
- Número de electrodos activos en cada ciclo de
estimulación - Duración de los pulsos eléctricos
68Mapeo de intensidad (maplaw)
69Mapeo de intensidad (maplaw)
70Control de volumen
MCL
MCL utilizado
Niveles estimados
THR utilizado
THR
0
0
100
Nivel de volumen
71Control de volumen
MCL
Niveles estimados
THR
0
0
100
75
Nivel de volumen
72Control de sensibilidad
73Control de sensibilidad
MCL
Nivel estim. eléctrico
THR
100 dB
20 dB
Rango dinámico acústico
74Control de sensibilidad
MCL
Nivel estim. eléctrico
THR
100 dB
20 dB
Rango dinámico acústico
75Resultados en Implantes Cocleares
- Factores que afectan
- Edad de implantación
- Nivel de lenguaje previo a sordera
- Experiencia auditiva previa a sordera
- Otros factores
- Habilidades intelectuales
- Entorno social-familiar
- Presencia de otras patologías
- Etc....
76(No Transcript)
77(No Transcript)
78(No Transcript)
79(No Transcript)
80(No Transcript)