Title: Reconocimiento de la voz Grupo PAS Universidad de Deusto
1Reconocimiento de la vozGrupo PAS Universidad
de Deusto
2Índice
- Introducción
- Historia del reconocimiento de voz
- Tecnología del habla
- Funcionamiento de los sistemas reconocedores del
habla con entrenamiento - Estructura general de un sistema de
reconocimiento automático del habla - Reconocimiento del habla empleando técnicas de
comparación de patrones - Algunas herramientas estadísticas usadas en el
desarrollo de los sistemas de reconocimiento - Los Modelos Ocultos de Markov (MOM) (Hidden
Markov Models) - Las técnicas de grupo
- Redes neuronales artificiales
- Procesado de voz en los sistemas de
reconocimiento del habla - Productos de Reconocimiento de Voz
- Aplicaciones
- Datos de interés
- Bibliografía
3Introducción
- Qué es reconocimiento de voz?
- Es la conversión de palabras habladas (sonido) a
palabras escritas (texto). - Sus campos de aplicación desde la
domótica hasta la inteligencia artificial. - Se podrá reconocer
- un número limitado de palabras grabando unos
ejemplos como patrones a - identificar con las entradas
- un vocabulario completo
pudiendo hablar con naturalidad haciendo que el
sistema - identifique las palabras
frases y el significado. - Un sistema de reconocimiento de voz podrá operar
identificando - Palabras aisladas
- Fonemas (mayor complejidad) para
reconocer palabras, frases, etc - Los ingenieros que trabajan con el habla han
tratado de construir máquinas que sean capaces de
recibir órdenes y/o mensajes por medio del habla,
interpretar esos mensajes, realizar las
actividades solicitadas y eventualmente presentar
resultados, también en forma hablada.
4Introducción
- Debe cumplir 3 tareas
- Pre-Procesamiento Convierte la entrada de voz a
una forma que el reconocedor pueda procesar. - Reconocimiento Identifica lo que se dijo
(traducción de señal a texto). - Comunicación Envía lo reconocido al sistema
(Software/Hardware) - Estos tres procesos deberían ser invisibles al
usuario de la interfaz.
52. Historia del reconocimiento de voz
- 1870 ? Alexander Graham Bell
- Quería construir un dispositivo que hiciera el
habla visible a las personas con problemas
auditivos. - Resultado el teléfono.
- 1880 ? Tihamir Nemes
- Intenta desarrollar un sistema de transcripción
automática que identifique secuencias de sonidos
y los imprima (texto). - El proceso es rechazado por no ser realista.
- 1910 ? ATT Bell Laboratories
- Construye la primera máquina, basada en
plantillas, capaz de reconocer voz de los 10
dígitos del Inglés. - Requiere un extenso entrenamiento a la voz de una
persona, pero una vez logrado tiene un 99 de
certeza. - Surge la esperanza de que el reconocimiento de
voz sea simple y directo.
6Historia del reconocimiento de voz
- A mediados de los 60
- El proceso es muy lento
- Empiezan a reducir los alcances y se centran en
sistemas más específicos - Dependientes del Locutor
- Flujo discreto de habla (con espacios / pausas
entre palabras) - Vocabulario pequeño (menor o igual a 50 palabras)
- Estos sistemas empiezan a incorporar técnicas de
normalización del tiempo. - Se minimiza la diferencia en la velocidad del
habla. - IBM y CMV trabajan en reconocimiento de voz
continuo pero los resultados no llegan hasta
1970. - A principios de los 70
- Se produce el primer producto de reconocimiento
de voz, el VIP100 de Threshold Technology Inc. - Gracias al lanzamiento de grandes proyectos de
investigación y financiamiento por parte del
gobierno norteamericano, se precipita la época de
la inteligencia artificial. - Los sistemas empiezan a incorporar módulos de
- análisis léxico
- análisis sintáctico
- análisis semántico
- análisis pragmático
7Historia del reconocimiento de voz
- Entre los 80 y los 90
- Surgen los sistemas de vocabulario amplio ? Más
de 1000 palabras. - Bajan los precios.
- Empresas importantes actualmente
- Philips
- Lernout Hauspie
- Sensory Circuits
- Dragon Systems
- Speechworks
- Vocalis
- Dialogic
- Novell
- Microsoft
- NEC
- Siemens
- Intel
83. Tecnología del habla
- Tratamiento de la palabra
- Está dividido en tres partes importantes
- Síntesis de la señal vocal Viene a ser la
creación de señal vocal sintética. - La máquina debe ser capaz de expresarse emitiendo
sonidos que podamos entender como palabras o
frases - Codificación La computadora debe ser capaz de
procesar la información para que la señal vocal
sea almacenada de una forma eficiente. - Compresión de la señal para transmitirla por un
medio de B limitado. - Reconocimiento La computadora debe ser capaz de
escuchar y reconocer las palabras emitidas por
una persona. - Es la parte más complicada del tratamiento de la
palabra. - Involucra el desarrollo de algoritmos que sean
capaces de realizar la comparación de patrones de
voz entre palabras pronunciadas y las palabras de
un diccionario predeterminado.
94.Funcionamiento de los sistemas reconocedores
del habla con entrenamiento
- Dos etapas
- Etapa de entrenamiento se le presentan al
sistema una cantidad de pronunciaciones
(elementos del habla unidades básicas de las
palabras, palabras, frases, oraciones, etc.) que
se desea que éste memorice - Etapa de reconocimiento (superada la etapa de
entrenamiento) se le pide que identifique una
pronunciación particular dada, como alguna de las
que ya conoce o parecida a las que conoce o
simplemente como desconocida. Esto significa que
la pronunciación a reconocer no tiene que ser,
necesariamente, una de las que se usan en la
etapa de entrenamiento. - La información almacenada o retenida por el
reconocedor está constituida por propiedades
extraídas de todas las pronunciaciones de
entrenamiento. - No se almacenan las pronunciaciones, sino
propiedades de ese conjunto. - Así se evita almacenar datos redundantes y con
ello darle al sistema la propiedad de responder
en forma rápida, a cualquier solicitud de
identificación de alguna señal de entrada. - Lo ideal es que los sistemas respondan en tiempo
real.
105. Estructura general de un sistema de
reconocimiento automático del habla
- 1. Módulo de adquisición de datos realiza la
conversión analógica a digital - 2. Módulo de extracción de propiedades de la
señal de voz compresión de los datos para
obtener un vector de propiedades (energía
espectral, tono, formantes, donde empieza el
sonido, donde termina el sonido, etc.) de cada
segmento y de cada sonido de la pronunciación. - Esto implica el uso de técnicas espectrales,
FFT, modelos autoregresivos (ARMA) y - regresivos (MA), Modelos de
Predicción Lineal (LPC), Análisis Cepstral,
filtrados, etc. - 3. Módulo de cuantificación de los sonidos
identificar los distintos sonidos utilizando la
secuencia de vectores de propiedades obtenida en
el módulo anterior. Cada vector está asociado a
un sonido del habla, luego la salida de este
módulo es una secuencia de valores, donde cada
valor representa el sonido con el que está
asociado un vector de propiedades. - Un mismo valor y por lo tanto un mismo
sonido, puede aparecer varias veces en esta
secuencia de salida. - 4. Módulo reconocedor propiamente dicho
identifica una pronunciación dada, como conocida,
parecida a una conocida o como desconocida. Para
ello recibe desde el módulo de cuantificación la
secuencia de valores que corresponde a una mezcla
de los sonidos que puede tratar el sistema estos
sonidos individualmente corresponden a un
segmento de la señal de la voz pero en conjunto y
en la secuencia constituyen la señal completa de
la pronunciación que se desea reconocer o
memorizar. La complejidad de este módulo depende
del tipo de identificación que se requiera.
116. Reconocimiento del habla empleando técnicas de
comparación de patrones
- Su principal ventaja inmediata reside en que no
es necesario descubrir todas las características
espectrales de la voz a nivel fonético, lo que
evita desarrollar etapas complejas de detección
de formantes, de rasgos distintivos de los
sonidos, tono de voz, etc.
12Reconocimiento del habla empleando técnicas de
comparación de patrones
- Se aplica normalmente en casos donde el número de
palabras necesarias sea pequeño. - También se puede constituir los grupos de
patrones por unidades tales como sonidos básicos
(fonemas y demás clasificaciones de sonidos
cortos). - Al grabar estos sonidos en la base de datos, se
obtendrán sus características espectrales (suele
hacerse con los parámetros LPC) - LPC-Estimación Espectral por Predicción Lineal
esta técnica ha probado ser muy eficiente debido
a la posibilidad de parametrizar la señal con un
número pequeño de patrones con los cuales es
posible reconstruirla adecuadamente. - Por mucho que se mejore este sistema, siempre
existirá el error al normalizar en tiempo y
amplitud éstas señales de entrada para que
coincidan con el patrón. - En este punto es donde cabe mencionar los
sistemas avanzados como son las cadenas ocultas
de Markov (HMM) y las redes neuronales.
137. Algunas herramientas estadísticas usadas en
eldesarrollo de los sistemas de reconocimiento
- Los Modelos Ocultos de Markov (MOM) (Hidden
Markov Models) - Son autómatas de estados finitos estocásticos. Se
usan para modelar las pronunciaciones dada la
gran variabilidad de dichas señales. - Origen ? década de los 50. La idea consistía en
modelar un proceso estocástico doble, donde se
asumía que los datos observados eran producto de
hacer pasar el proceso real (oculto) a través de
un medio cuyo resultado era el proceso observado
(Deller y otros, 1993). - Surge el algoritmo de identificación conocido
como el algoritmo de Máxima Estimación (ME). - Para la aplicación de esta teoría al
procesamiento de la voz, Baum y Welch hicieron
una modificación y lo llamaron Baum-Welch,
posteriormente surgió el algoritmo Viterbi. - Década actual ? aparecen los modelos de redes
neurales artificiales para hacer ese tipo de
entrenamiento e identificación.
147.1. Los Modelos Ocultos de Markov (MOM) (Hidden
Markov Models)
15Los Modelos Ocultos de Markov (MOM) (Hidden
Markov Models)
- Reconocimiento de Palabras Aisladas
- Nonspeech modelo acústico de duración de una
trama que modela el ruido de fondo. - Word cualquier palabra de todas las posibles
del habla. - El punto clave
- el reconocedor encuentra los tiempos óptimos de
inicio/fin de la pronunciación respecto al
invetario de modelo acústico (búsqueda
direccionada de hipótesis).
16Los Modelos Ocultos de Markov (MOM) (Hidden
Markov Models)
- Reconocimiento de voz simple/continuo (sin
gramática) - El sistema reconoce arbitrariamente secuencias
largas de palabras o eventos que no pertenecen al
habla. - El gran debate
- Abajo arriba
- Arriba - abajo
17(No Transcript)
18- El parseo se refiere al problema de determinar si
una secuencia dada podría haber sido generada a
partir de una máquina de estado dada. - Este cálculo, como podemos ver, requiere una
búsqueda elaborada de todas las combinaciones
posibles de salida de los símbolos de la máquina
de estados. - Este cálculo puede obtenerse eficientemente en un
modo de abajo-arriba, si la probabilidad de los
símbolos de entrada es extremadamente exacta, y
sólo unos cuantos símbolos son posibles en cada
punto de los niveles inferiores del árbol. - Si los símbolos de entrada son ambiguos, se
prefiere el parseo arriba-abajo.
19Los Modelos Ocultos de Markov (MOM) (Hidden
Markov Models)
- Generalización del HMM
- Considera el siguiente diagrama de estado que
representa un modelo de lenguaje simple que
envuelve secuencias de dígitos encerradas
20- En la terminología asociada con la teoría formaI
del lenguaje, este HMM es conocido como un
automaton de estado finito - La palabra stochasticcan se aplica porque las
transiciones y símbolos de salida están
governadas por distribuciones de probabilidad. - Como existen multiples transiciones y
observaciones generadas en cualquier punto en el
tiempo, este gráfico particular se clasifica como
un automaton no determinista. - En el futuro, nos referiremos a este sistema como
un automaton de estado finito estocástico (FSA or
SFSA) cuando se usa para información más
lingüística. - También podemos expresar este sistema como una
gramática regular
21(No Transcript)
22- Las probabilidades de regla no son iguales a las
probabilidades de transición ya que necesitan
combinar probabilidades de transición y
probabilidades de salida. - Por ejemplo, considerar p7
- En general,
-
- Nota que debemos ajustar probabilidades en elos
sistemas terminales cuando la gramática es no
determinista - para permitir generación de una terminal final.
- La transición de HMM a lenguages formales
estocásticos ha finalizado.
237.2. Las técnicas de grupo
- Para la identificación de los todos los sonidos
diferentes en el módulo de cuantificación también
se hace un entrenamiento. - Se tiene un espacio de vectores de observaciones,
donde cada vector contiene propiedades extraídas
de un segmento de la señal de una pronunciación y
que desea construir un sistema que maneje un
número K de sonidos diferentes capaz de reconocer
pronunciaciones de distintas personas que hablen
un mismo idioma. - Las pronunciaciones varían de persona a persona
(por influencia del ambiente, el ruido, estado de
ánimo, estructura física del aparato fonador
humano, etc.), es de esperar que los sonidos
individuales no sean iguales, pero sí
parecidos. - Por ello, el espacio vectorial de observaciones
se divide en K grupos, donde cada grupo contiene
aquellos vectores que corresponden a un sonido
distinto. - Esta transformación del espacio vectorial de
observaciones original a K grupos, se realiza
usando la teoría de clustering y específicamente
a través de una de sus herramientas, la conocida
como cuantificación vectorial.
24Las técnicas de grupo
- La cuantificación vectorial trabaja sobre la base
del siguiente algoritmo, el algoritmo LBG en
honor a sus creadores LLoyd, Buzo y Gray y es una
extensión del algoritmo de las K-Medias. En la
actualidad, también se hace cuantificación
vectorial en el contexto de las Redes Neurales
Artificiales a través del algoritmo Learning
Vector Quantizer, LVQ
25Las técnicas de grupo
- 1. Se seleccionan arbitrariamente K vectores del
espacio vectorial de observaciones, esos vectores
constituyen el llamado Código. - 2. A cada vector del espacio de observaciones, lo
asociamos con aquel vector de los K del Código,
con el que más se identifique en el sentido de
una medida de distorsión (con aquel cuya
distorsión resulte más pequeña). - 3. Calculamos la distorsión total producto de la
asociación hecha en el paso 2. Si esa distorsión
es suficientemente pequeña, paramos el proceso. - 4. Por cada grupo que se forma, se calcula su
vector promedio. Los nuevos vectores promedios de
los grupos constituyen el nuevo código. - 5. Se vuelve al paso 2.
- Como resultado de esta cuantificación, el espacio
de observaciones original fue transformado a un
espacio de grupo de vectores parecidos y luego
a un espacio constituido sólo por los vectores
centroides (los promedios) de los grupos. Además,
como podemos apreciar en la figura anterior, cada
centroide se puede representar por un valor o
índice.
26Las técnicas de grupo
- El proceso de cuantificación descrito constituye
la etapa de entrenamiento del llamado módulo de
cuantificación, mientras que en el proceso de
identificación de ese módulo, lo que hace es una
comparación (en el sentido de una medida de
distorsión) entre cada vector que le entra y los
respectivos centroides que tiene almacenados, se
asocia ese vector con aquel centroide con el cual
la distorsión es más pequeña y se marca o
identifica a través del índice del grupo. - Es claro que el proceso de cuantificación
comprende una compresión de datos, lo que reduce
la carga computacional de los sistemas y, por lo
tanto, el tiempo de respuesta es
considerablemente más rápido al empleado si no se
hiciera este tipo de manejo de propiedades.
278. Redes neuronales artificiales
- Una nueva forma de computación inspirada en
modelos biológicos. - Una neurona se compone de dendritas (entradas),
cuerpo (decisión) y axón (salida). - En nuestro cerebro tenemos miles de neuronas
interconectadas entre sí, lo que equivale a unas
10E15 conexiones (aproximadamente). La
información en sí, es el potencial eléctrico. - El modelo que vamos a tomar de ella es el
siguiente
28Redes neuronales artificiales
- Los sistemas neuronales biológicos presentan un
mecanismo muy importante llamado neurotransmisor
para controlar el flujo de la información que
transita a través de las neuronas. En las redes
neuronales artificiales se modela un
neurotransmisor como una multiplicación de la
salida por un peso (número). - En la siguiente figura podremos ver más
detalladamente las entradas (u), que son
parámetros de una TF, la salida (y) y los pesos
(w). - Si Wgt0 ? sinapsis excitadora
- Si W0 ? no existe conexión
- Si Wlt0 ? sinapsis inhibidora
- Cuando multiplicamos la entrada por el peso (uw)
tendremos un valor con el cual decidiremos si a
la salida daremos un 1 o un 0. - Existe un umbral ? tal que si (uw-?) es mayor
que cero, la salida vale y 1. - La salida no es un impulso tipo escalón ya que
necesitamos una función derivable (por motivos de
programación) así que aproxima esa señal a una de
tipo sigmoidea (continua y derivable).
29Redes neuronales artificiales
- Una vez establecido el comportamiento de una
neurona artificial, vamos a conectar neuronas
entre sí con el fin de formar una red de
computación. - Las neuronas biológicas están continuamente
creando y destruyendo conexiones, lo que se hace
es regular esta función mediante la variación del
valor de los pesos estableciendo unos valores de
manera aleatoria. - Hay muchos tipos de aprendizaje entre ellos
- Década de los 70? sistema de retropropagación
(Algoritmo Back Propagation), en el que cuando la
última capa de salida suelta un valor, comienza
el proceso contrario (propagación hacia atrás)
analizando qué es lo que ha pasado en cada
neurona de cada capa y dando órdenes a cada una
de ellas para ver cómo puede mejorar.
30Redes neuronales artificiales
- Definición de un tipo de red neuronal el
perceptrón. - El método de aprendizaje que utiliza es el
supervisado por corrección de error (Hebbiano). - Presenta una sola neurona
- de cómputo, de ahí su sencillez
- Las neuronas de menor tamaño pertenecen a la capa
de entrada y son parte del formalismo de la red.
Se encargan de recibir y distribuirlos datos del
exterior, sin realizar cómputos sobre los mismos. - Esto significa que el resultado de la neurona va
a tomar uno de los dos valores previstos en la
función escalón (-1 y 1). El valor de la salida
dependerá de si X1W1X2W2 es mayor o menor que
el umbral ?. - Por tanto se establece la
- siguiente ecuación
31Redes neuronales artificiales
- Existen otros casos mucho más complejos, los
cuales, parten de la idea básica de éste - Perceptrón multicapa
- Consiste en poner varias capas elementales
interconectadas sucesivamente con el objeto de
dotar a la red de la complejidad suficiente para
realizar la tarea requerida. - Perceptrón multicapa con capas de retardo
- Es el modelo más complejo. Consiste en la
inclusión de bloques (o capas) de neuronas que
toman como entradas las salidas de otro/s
bloque/s en el instante anterior. - Esto permite que la red sea un sistema con
memoria a corto plazo (o en fase operativa).
Esta memoria es muy diferente a la memoria debida
al entrenamiento que presenta el sistema global
(que podría llamarse memoria a largo plazo o
memoria en fase de entrenamiento).
32Redes neuronales artificiales
- Entrenamiento de varias capas
- Con varias capas ya no tenemos un sistema de
ecuaciones lineales porque no hemos aplicado sólo
una no linealidad sino que hemos aplicado una no
linealidad a una aplicación lineal de varias no
linealidades y esto ya no se puede resolver como
un sistema de ecuaciones lineales. Al no tener
una solución directa podemos pensar en buscar
llegar a la solución siguiendo varios pasos a
partir de un punto. El método de entrenamiento
será por tanto iterativo. Ahora se puede hablar
más propiamente de entrenamiento (mejora por
fases). - Ahora lo que buscamos son dos cosas
- Un punto de comienzo (pesos iniciales). Se suelen
escoger unos números aleatorios pero pequeños. - Un camino (o una dirección a seguir en cada
paso). Lo que nos interesa ahora es buscar en
cada paso (cada iteración) una dirección de
nuestro espacio de pesos que nos conduzca por un
camino que lleve al objetivo la minimización del
error. Wn1 Wn ?Wn - Se deben usar las Redes neuronales artificiales
(RNA) de manera eficiente para el reconocimiento
de voz. Para ello se deben elegir las entradas de
la red, las salidas y la estructura necesaria
para que produzca las salidas deseadas (dadas
unas entradas). Después habrá que elegir un
algoritmo de entrenamiento y unos parámetros para
después realizarlo.
339. Procesado de voz en los sistemas de
reconocimiento del habla
- Objetivo Incorporar la información relevante en
el sistema que facilite la tarea del
reconocimiento. - Características relevantes de la Voz
- - La información espectral.
- - El tipo de excitación.
- - La energía.
- Análisis espectral de tiempo corto
- -Pre-énfasis.
- -La señal es segmentada en tramas.
-
- -Cada trama queda representada por un vector de
características. - -Transformación al dominio cepstral.
34Procesado de voz en los sistemas de
reconocimiento del habla
- Reprensentación de las características
espectrales - CEPSTRUM transformada inversa de Fourier del
logaritmo del espectro. - COEFICIENTES CEPSTRALES muestras del cepstrum.
- REPRESENTACIÓN BASADA EN EL MODELO LPC
35Procesado de voz en los sistemas de
reconocimiento del habla
- Reprensentación basada en el Modelo LPC
- Señal predicha
-
-
- Error de predicción
- Los coeficientes LPC son aquellos que minimizan
la energía del error (energía residual) - Se plantea el siguiente sistema de p ecuaciones
con p incógnitas.
36(No Transcript)
37Procesado de voz en los sistemas de
reconocimiento del habla
- Compensación del Efecto del Ruido
- Señal de entrada al sistema de reconocimiento ?
voz ruidosa - Soluciones
- -Intentar mejorar la señal de voz
-
- -Parametrizar directamente la señal ruidosa.
- -Hacer uso de modelos auditivos
- Voz limpia a partir de voz ruidosa
- -Durante los tramos de silencio, estimar el
espectro de ruido contaminante. - -Sustraérselo al espectro instantáneo de la
señal de entrada. -
- -La señal temporal es la
3810. PRODUCTOS DE RECONOCIMIENTO DE VOZ
- FreeSpeech 2000
- Requiere Pentium/MMX 166 o equivalente 48 MB en
RAM 100MB de espacio en disco duro tarjeta de
sonido compatible con Sound Blaster Microsoft
Windows 95,98 o NT con SP3. - Soporte para dictado en seis idiomas.
- Baja precisión?reduce la facilidad de uso.
- 93 en exactitud y 91 en precisión
- Carece de una tarjeta de consulta rápida e
incluye poca información de los comandos. - Los usuarios encontrarán mayor precisión y
facilidad de uso en otros programas que
participan en esta competencia.
39PRODUCTOS DE RECONOCIMIENTO DE VOZ
- L H Voice Xpress Professional, Versión 4
- Requiere Pentium II 48 MB en RAM con Microsoft
Windows 95 o 98, o 64 MB con Windows NT 200 MB
de espacio en disco duro tarjeta de sonido de
16 bits compatible con Sound Blaster o micrófono
USB. - Punto fuerte del programa ? comandos intuitivos
con lenguaje natural para Microsoft Word, Excel y
el sencillo procesador de palabras Voice Xpress.
40PRODUCTOS DE RECONOCIMIENTO DE VOZ
- Características de corrección limitadas carecen
de reproducción de audio - 94 en precisión
- Voice Xpress permite respaldar sus archivos de
voz con facilidad en Iomega Zip Drive. - Los usuarios que desean controlar Excel y Word
por medio de la voz ? Voice Xpress opción
adecuada.
41PRODUCTOS DE RECONOCIMIENTO DE VOZ
- Dragon Naturally Speaking Preferred 4.0
- Requiere Pentium MMX/200 o equivalente 48 MB en
RAM 200MB de espacio en disco duro tarjeta de
sonido de 16 bits compatible con Creative Labs
Sound Blaster Microsoft Windows 95 , 98 o NT - Marca el estándar para la facilidad de uso
- Navegación Web activada por la voz.
42PRODUCTOS DE RECONOCIMIENTO DE VOZ
- Tiene atajos intuitivos para el dictado y el
formato. - Ej. cap para escribir todo en mayúsculas
- Único producto en esta competencia que permite
dictar, corregir y practicar sin utilizar las
manos. - 96 de precisión.
- Soporte limitado para el lenguaje natural en
aplicaciones distintas de Microsoft Word
43PRODUCTOS DE RECONOCIMIENTO DE VOZ
- Via Voice Pro Millennium Edition
- Requiere Pentium/233 o equivalente 48 MB en RAM
con Microsoft Windows 95 o 98, o 64 MB con
Windows NT 100 MB de espacio en disco duro
tarjeta de sonido de 16 bits. - variedad de funcionalidad tanto para aplicaciones
de dictado como de control - Precisión entre 95 y 98
- Permite controlar los menús y cuadros de diálogo
en la mayor parte de los programas de Windows,
con comandos en lenguaje natural disponibles para
Microsoft Word y Excel, entre otros.
44PRODUCTOS DE RECONOCIMIENTO DE VOZ
- Permite activar Internet Explorer con la voz.
- Naturally Speaking también lo permite, pero sólo
Via Voice numera los elementos de la página, de
modo que puede decir el nombre del elemento
requerido. - Complicado corregir los errores en Via Voice.
- El manual del programa sugiere emplear una
combinación de ratón, teclado y voz para editar. - Comandos de formato común como convertir en
negritas las tres últimas palabras únicamente
funcionaron en Microsoft Word.
4511. APLICACIONES
- Medicina
- APLICACIÓN EN LA HISTORIA CLÍNICA incluye
descripciones habladas de los hallazgos del
examen físico u otras observaciones - LABORATORIO entrada "on-line" de datos de
laboratorio - APLICACIONES DIAGNÓSTICAS Y TERAPÉUTICAS
desarrollado de redes neuronales multicapa,
entrenadas y probadas utilizando palabras
aisladas pronunciadas por pacientes con
disartria.
46APLICACIONES
- Operadores automáticos
- SERVICIO AUTOMATIZADO DE ASISTENCIA DE
DIRECTORIO Proveedores de servicios ofrecen a
sus clientes la posibilidad de obtener un nº de
teléfono manteniendo un diálogo completo con un
sistema activado por la voz. - SPEECHATTENDANT Es una solución de contestación
automática para empresas medianas y grandes que
habilita el enrutamiento de llamadas mediante la
voz. - Capacidad de entender el habla de quienes
realizan las llamadas, incluso de aquéllos que
hablan con acentos extranjeros, y responder a
consultas comunes durante las 24 horas del día,
los 7 días de la semana.
47APLICACIONES
- Móviles
- XMODE MULTIMODAL SYSTEM Interacciones para
usuarios de dispositivos personales inalámbricos
mediante combinación de reconocimiento automático
de voz (ASR) y texto a voz (TTS) con multimedia e
Internet móvil. - Integración de interfaces de audio, voz y vídeo
en un único dispositivo móvil y en una sola
sesión. - Discapacitados
- Grandes dificultades en el uso del teclado y el
ratón estándar.
4812. Datos de interés
- Algunas aplicaciones que se han conseguido
- Command control usar la voz para controlar una
máquina - Form-filling llenar una forma con datos
- Automatic dictation hablar en vez de usar el
teclado para escribir - Information retrieval sacar información de un
base de datos - Cooperative task completion usar un diálogo para
lograr una meta - Nivel actual
- Los dígitos por teléfono 1 error
- Preguntas naturales dentro de un vocabulario
mediano 4 error - Dictado automático de vocabulario grande (pero
dependiente del locutor) 5 error - La transcripción de las noticias 17 error
- Entre las opciones de software hablado se
destacan - Dragon Naturally Speaking (www.scansoft.com),
de ScanSoft - ViaVoice (www.ibm.com/software/voice/viavoice),
de IBM.
4913. Bibliografía
- http//www.psicologia-online.com/colaboradores/dpu
chol/modelado.shtml - http//www.jegsworks.com/Lessons-sp/lesson3/lesson
3-5.htm - http//mailweb.udlap.mx/sistemas/tlatoa/courses/s
yllabus.html - http//www.nodo50.org/utlai/num22/221006.htm
- http//www.scielo.org.ve/scielo.php?pidS0254-0770
2002000300008scriptsci_arttexttlnges - http//www.imim.es/quark/21/021063.htm
- http//www.psicocentro.com/cgi-bin/articulo_s.asp?
textoart49001 - http//www.mor.itesm.mx/omayora/TallerHCI-04/Came
raReady/CMiranda.pdf - http//webdiis.unizar.es/jminguez/Silla20de20Ru
edas20Inteligente Controlada por Voz.pdf - http//mailweb.udlap.mx/ingrid/ingrid/articulo_16
6.pdf - http//gps-tsc.upc.es/veu/personal/canton/HablaFlu
ida1.pdf - http//tamarisco.datsi.fi.upm.es/ASIGNATURAS/FRAV/
apuntes/clasifica.pdf - http//www.ejournal.unam.mx/compuysistemas/vol03-0
2/CYS03203.pdf - Nuestro agradecimiento a los alumnos de Ing. de
Telecomunicación en la recopilación de
información