Reconocimiento de la voz Grupo PAS Universidad de Deusto

About This Presentation

Title:

Reconocimiento de la voz Grupo PAS Universidad de Deusto

Description:

Funcionamiento de los sistemas reconocedores del habla con entrenamiento ... es extremadamente exacta, y s lo unos cuantos s mbolos son posibles en cada ... – PowerPoint PPT presentation

Number of Views:555

Avg rating:5.0/5.0

Slides: 50

Provided by: Osc90

Category:

more less

Transcript and Presenter's Notes

Title: Reconocimiento de la voz Grupo PAS Universidad de Deusto

1
Reconocimiento de la vozGrupo PAS Universidad
de Deusto
2
Índice

Introducción
Historia del reconocimiento de voz
Tecnología del habla
Funcionamiento de los sistemas reconocedores del
habla con entrenamiento
Estructura general de un sistema de
reconocimiento automático del habla
Reconocimiento del habla empleando técnicas de
comparación de patrones
Algunas herramientas estadísticas usadas en el
desarrollo de los sistemas de reconocimiento
Los Modelos Ocultos de Markov (MOM) (Hidden
Markov Models)
Las técnicas de grupo
Redes neuronales artificiales
Procesado de voz en los sistemas de
reconocimiento del habla
Productos de Reconocimiento de Voz
Aplicaciones
Datos de interés
Bibliografía

3
Introducción

Qué es reconocimiento de voz?
Es la conversión de palabras habladas (sonido) a
palabras escritas (texto).
Sus campos de aplicación desde la
domótica hasta la inteligencia artificial.
Se podrá reconocer
un número limitado de palabras grabando unos
ejemplos como patrones a
identificar con las entradas
un vocabulario completo
pudiendo hablar con naturalidad haciendo que el
sistema
identifique las palabras
frases y el significado.
Un sistema de reconocimiento de voz podrá operar
identificando
Palabras aisladas
Fonemas (mayor complejidad) para
reconocer palabras, frases, etc
Los ingenieros que trabajan con el habla han
tratado de construir máquinas que sean capaces de
recibir órdenes y/o mensajes por medio del habla,
interpretar esos mensajes, realizar las
actividades solicitadas y eventualmente presentar
resultados, también en forma hablada.

4
Introducción

Debe cumplir 3 tareas
Pre-Procesamiento Convierte la entrada de voz a
una forma que el reconocedor pueda procesar.
Reconocimiento Identifica lo que se dijo
(traducción de señal a texto).
Comunicación Envía lo reconocido al sistema
(Software/Hardware)
Estos tres procesos deberían ser invisibles al
usuario de la interfaz.

5
2. Historia del reconocimiento de voz

1870 ? Alexander Graham Bell
Quería construir un dispositivo que hiciera el
habla visible a las personas con problemas
auditivos.
Resultado el teléfono.
1880 ? Tihamir Nemes
Intenta desarrollar un sistema de transcripción
automática que identifique secuencias de sonidos
y los imprima (texto).
El proceso es rechazado por no ser realista.
1910 ? ATT Bell Laboratories
Construye la primera máquina, basada en
plantillas, capaz de reconocer voz de los 10
dígitos del Inglés.
Requiere un extenso entrenamiento a la voz de una
persona, pero una vez logrado tiene un 99 de
certeza.
Surge la esperanza de que el reconocimiento de
voz sea simple y directo.

6
Historia del reconocimiento de voz

A mediados de los 60
El proceso es muy lento
Empiezan a reducir los alcances y se centran en
sistemas más específicos
Dependientes del Locutor
Flujo discreto de habla (con espacios / pausas
entre palabras)
Vocabulario pequeño (menor o igual a 50 palabras)
Estos sistemas empiezan a incorporar técnicas de
normalización del tiempo.
Se minimiza la diferencia en la velocidad del
habla.
IBM y CMV trabajan en reconocimiento de voz
continuo pero los resultados no llegan hasta
1970.
A principios de los 70
Se produce el primer producto de reconocimiento
de voz, el VIP100 de Threshold Technology Inc.
Gracias al lanzamiento de grandes proyectos de
investigación y financiamiento por parte del
gobierno norteamericano, se precipita la época de
la inteligencia artificial.
Los sistemas empiezan a incorporar módulos de
análisis léxico
análisis sintáctico
análisis semántico
análisis pragmático

7
Historia del reconocimiento de voz

Entre los 80 y los 90
Surgen los sistemas de vocabulario amplio ? Más
de 1000 palabras.
Bajan los precios.
Empresas importantes actualmente
Philips
Lernout Hauspie
Sensory Circuits
Dragon Systems
Speechworks
Vocalis
Dialogic
Novell
Microsoft
NEC
Siemens
Intel

8
3. Tecnología del habla

Tratamiento de la palabra
Está dividido en tres partes importantes
Síntesis de la señal vocal Viene a ser la
creación de señal vocal sintética.
La máquina debe ser capaz de expresarse emitiendo
sonidos que podamos entender como palabras o
frases
Codificación La computadora debe ser capaz de
procesar la información para que la señal vocal
sea almacenada de una forma eficiente.
Compresión de la señal para transmitirla por un
medio de B limitado.
Reconocimiento La computadora debe ser capaz de
escuchar y reconocer las palabras emitidas por
una persona.
Es la parte más complicada del tratamiento de la
palabra.
Involucra el desarrollo de algoritmos que sean
capaces de realizar la comparación de patrones de
voz entre palabras pronunciadas y las palabras de
un diccionario predeterminado.

9
4.Funcionamiento de los sistemas reconocedores
del habla con entrenamiento

Dos etapas
Etapa de entrenamiento se le presentan al
sistema una cantidad de pronunciaciones
(elementos del habla unidades básicas de las
palabras, palabras, frases, oraciones, etc.) que
se desea que éste memorice
Etapa de reconocimiento (superada la etapa de
entrenamiento) se le pide que identifique una
pronunciación particular dada, como alguna de las
que ya conoce o parecida a las que conoce o
simplemente como desconocida. Esto significa que
la pronunciación a reconocer no tiene que ser,
necesariamente, una de las que se usan en la
etapa de entrenamiento.
La información almacenada o retenida por el
reconocedor está constituida por propiedades
extraídas de todas las pronunciaciones de
entrenamiento.
No se almacenan las pronunciaciones, sino
propiedades de ese conjunto.
Así se evita almacenar datos redundantes y con
ello darle al sistema la propiedad de responder
en forma rápida, a cualquier solicitud de
identificación de alguna señal de entrada.
Lo ideal es que los sistemas respondan en tiempo
real.

10
5. Estructura general de un sistema de
reconocimiento automático del habla

1. Módulo de adquisición de datos realiza la
conversión analógica a digital
2. Módulo de extracción de propiedades de la
señal de voz compresión de los datos para
obtener un vector de propiedades (energía
espectral, tono, formantes, donde empieza el
sonido, donde termina el sonido, etc.) de cada
segmento y de cada sonido de la pronunciación.
Esto implica el uso de técnicas espectrales,
FFT, modelos autoregresivos (ARMA) y
regresivos (MA), Modelos de
Predicción Lineal (LPC), Análisis Cepstral,
filtrados, etc.
3. Módulo de cuantificación de los sonidos
identificar los distintos sonidos utilizando la
secuencia de vectores de propiedades obtenida en
el módulo anterior. Cada vector está asociado a
un sonido del habla, luego la salida de este
módulo es una secuencia de valores, donde cada
valor representa el sonido con el que está
asociado un vector de propiedades.
Un mismo valor y por lo tanto un mismo
sonido, puede aparecer varias veces en esta
secuencia de salida.
4. Módulo reconocedor propiamente dicho
identifica una pronunciación dada, como conocida,
parecida a una conocida o como desconocida. Para
ello recibe desde el módulo de cuantificación la
secuencia de valores que corresponde a una mezcla
de los sonidos que puede tratar el sistema estos
sonidos individualmente corresponden a un
segmento de la señal de la voz pero en conjunto y
en la secuencia constituyen la señal completa de
la pronunciación que se desea reconocer o
memorizar. La complejidad de este módulo depende
del tipo de identificación que se requiera.

11
6. Reconocimiento del habla empleando técnicas de
comparación de patrones

Su principal ventaja inmediata reside en que no
es necesario descubrir todas las características
espectrales de la voz a nivel fonético, lo que
evita desarrollar etapas complejas de detección
de formantes, de rasgos distintivos de los
sonidos, tono de voz, etc.

12
Reconocimiento del habla empleando técnicas de
comparación de patrones

Se aplica normalmente en casos donde el número de
palabras necesarias sea pequeño.
También se puede constituir los grupos de
patrones por unidades tales como sonidos básicos
(fonemas y demás clasificaciones de sonidos
cortos).
Al grabar estos sonidos en la base de datos, se
obtendrán sus características espectrales (suele
hacerse con los parámetros LPC)
LPC-Estimación Espectral por Predicción Lineal
esta técnica ha probado ser muy eficiente debido
a la posibilidad de parametrizar la señal con un
número pequeño de patrones con los cuales es
posible reconstruirla adecuadamente.
Por mucho que se mejore este sistema, siempre
existirá el error al normalizar en tiempo y
amplitud éstas señales de entrada para que
coincidan con el patrón.
En este punto es donde cabe mencionar los
sistemas avanzados como son las cadenas ocultas
de Markov (HMM) y las redes neuronales.

13
7. Algunas herramientas estadísticas usadas en
eldesarrollo de los sistemas de reconocimiento

Los Modelos Ocultos de Markov (MOM) (Hidden
Markov Models)
Son autómatas de estados finitos estocásticos. Se
usan para modelar las pronunciaciones dada la
gran variabilidad de dichas señales.
Origen ? década de los 50. La idea consistía en
modelar un proceso estocástico doble, donde se
asumía que los datos observados eran producto de
hacer pasar el proceso real (oculto) a través de
un medio cuyo resultado era el proceso observado
(Deller y otros, 1993).
Surge el algoritmo de identificación conocido
como el algoritmo de Máxima Estimación (ME).
Para la aplicación de esta teoría al
procesamiento de la voz, Baum y Welch hicieron
una modificación y lo llamaron Baum-Welch,
posteriormente surgió el algoritmo Viterbi.
Década actual ? aparecen los modelos de redes
neurales artificiales para hacer ese tipo de
entrenamiento e identificación.

14
7.1. Los Modelos Ocultos de Markov (MOM) (Hidden
Markov Models)

HMMHiden Markov Models

15
Los Modelos Ocultos de Markov (MOM) (Hidden
Markov Models)

Reconocimiento de Palabras Aisladas
Nonspeech modelo acústico de duración de una
trama que modela el ruido de fondo.
Word cualquier palabra de todas las posibles
del habla.
El punto clave
el reconocedor encuentra los tiempos óptimos de
inicio/fin de la pronunciación respecto al
invetario de modelo acústico (búsqueda
direccionada de hipótesis).

16
Los Modelos Ocultos de Markov (MOM) (Hidden
Markov Models)

Reconocimiento de voz simple/continuo (sin
gramática)
El sistema reconoce arbitrariamente secuencias
largas de palabras o eventos que no pertenecen al
habla.
El gran debate
Abajo arriba
Arriba - abajo

17
(No Transcript)
18

El parseo se refiere al problema de determinar si
una secuencia dada podría haber sido generada a
partir de una máquina de estado dada.
Este cálculo, como podemos ver, requiere una
búsqueda elaborada de todas las combinaciones
posibles de salida de los símbolos de la máquina
de estados.
Este cálculo puede obtenerse eficientemente en un
modo de abajo-arriba, si la probabilidad de los
símbolos de entrada es extremadamente exacta, y
sólo unos cuantos símbolos son posibles en cada
punto de los niveles inferiores del árbol.
Si los símbolos de entrada son ambiguos, se
prefiere el parseo arriba-abajo.

19
Los Modelos Ocultos de Markov (MOM) (Hidden
Markov Models)

Generalización del HMM
Considera el siguiente diagrama de estado que
representa un modelo de lenguaje simple que
envuelve secuencias de dígitos encerradas

En la terminología asociada con la teoría formaI
del lenguaje, este HMM es conocido como un
automaton de estado finito
La palabra stochasticcan se aplica porque las
transiciones y símbolos de salida están
governadas por distribuciones de probabilidad.
Como existen multiples transiciones y
observaciones generadas en cualquier punto en el
tiempo, este gráfico particular se clasifica como
un automaton no determinista.
En el futuro, nos referiremos a este sistema como
un automaton de estado finito estocástico (FSA or
SFSA) cuando se usa para información más
lingüística.
También podemos expresar este sistema como una
gramática regular

21
(No Transcript)
22

Las probabilidades de regla no son iguales a las
probabilidades de transición ya que necesitan
combinar probabilidades de transición y
probabilidades de salida.
Por ejemplo, considerar p7
En general,
Nota que debemos ajustar probabilidades en elos
sistemas terminales cuando la gramática es no
determinista
para permitir generación de una terminal final.
La transición de HMM a lenguages formales
estocásticos ha finalizado.

23
7.2. Las técnicas de grupo

Para la identificación de los todos los sonidos
diferentes en el módulo de cuantificación también
se hace un entrenamiento.
Se tiene un espacio de vectores de observaciones,
donde cada vector contiene propiedades extraídas
de un segmento de la señal de una pronunciación y
que desea construir un sistema que maneje un
número K de sonidos diferentes capaz de reconocer
pronunciaciones de distintas personas que hablen
un mismo idioma.
Las pronunciaciones varían de persona a persona
(por influencia del ambiente, el ruido, estado de
ánimo, estructura física del aparato fonador
humano, etc.), es de esperar que los sonidos
individuales no sean iguales, pero sí
parecidos.
Por ello, el espacio vectorial de observaciones
se divide en K grupos, donde cada grupo contiene
aquellos vectores que corresponden a un sonido
distinto.
Esta transformación del espacio vectorial de
observaciones original a K grupos, se realiza
usando la teoría de clustering y específicamente
a través de una de sus herramientas, la conocida
como cuantificación vectorial.

24
Las técnicas de grupo

La cuantificación vectorial trabaja sobre la base
del siguiente algoritmo, el algoritmo LBG en
honor a sus creadores LLoyd, Buzo y Gray y es una
extensión del algoritmo de las K-Medias. En la
actualidad, también se hace cuantificación
vectorial en el contexto de las Redes Neurales
Artificiales a través del algoritmo Learning
Vector Quantizer, LVQ

25
Las técnicas de grupo

1. Se seleccionan arbitrariamente K vectores del
espacio vectorial de observaciones, esos vectores
constituyen el llamado Código.
2. A cada vector del espacio de observaciones, lo
asociamos con aquel vector de los K del Código,
con el que más se identifique en el sentido de
una medida de distorsión (con aquel cuya
distorsión resulte más pequeña).
3. Calculamos la distorsión total producto de la
asociación hecha en el paso 2. Si esa distorsión
es suficientemente pequeña, paramos el proceso.
4. Por cada grupo que se forma, se calcula su
vector promedio. Los nuevos vectores promedios de
los grupos constituyen el nuevo código.
5. Se vuelve al paso 2.
Como resultado de esta cuantificación, el espacio
de observaciones original fue transformado a un
espacio de grupo de vectores parecidos y luego
a un espacio constituido sólo por los vectores
centroides (los promedios) de los grupos. Además,
como podemos apreciar en la figura anterior, cada
centroide se puede representar por un valor o
índice.

26
Las técnicas de grupo

El proceso de cuantificación descrito constituye
la etapa de entrenamiento del llamado módulo de
cuantificación, mientras que en el proceso de
identificación de ese módulo, lo que hace es una
comparación (en el sentido de una medida de
distorsión) entre cada vector que le entra y los
respectivos centroides que tiene almacenados, se
asocia ese vector con aquel centroide con el cual
la distorsión es más pequeña y se marca o
identifica a través del índice del grupo.
Es claro que el proceso de cuantificación
comprende una compresión de datos, lo que reduce
la carga computacional de los sistemas y, por lo
tanto, el tiempo de respuesta es
considerablemente más rápido al empleado si no se
hiciera este tipo de manejo de propiedades.

27
8. Redes neuronales artificiales

Una nueva forma de computación inspirada en
modelos biológicos.
Una neurona se compone de dendritas (entradas),
cuerpo (decisión) y axón (salida).
En nuestro cerebro tenemos miles de neuronas
interconectadas entre sí, lo que equivale a unas
10E15 conexiones (aproximadamente). La
información en sí, es el potencial eléctrico.
El modelo que vamos a tomar de ella es el
siguiente

28
Redes neuronales artificiales

Los sistemas neuronales biológicos presentan un
mecanismo muy importante llamado neurotransmisor
para controlar el flujo de la información que
transita a través de las neuronas. En las redes
neuronales artificiales se modela un
neurotransmisor como una multiplicación de la
salida por un peso (número).
En la siguiente figura podremos ver más
detalladamente las entradas (u), que son
parámetros de una TF, la salida (y) y los pesos
(w).
Si Wgt0 ? sinapsis excitadora
Si W0 ? no existe conexión
Si Wlt0 ? sinapsis inhibidora
Cuando multiplicamos la entrada por el peso (uw)
tendremos un valor con el cual decidiremos si a
la salida daremos un 1 o un 0.
Existe un umbral ? tal que si (uw-?) es mayor
que cero, la salida vale y 1.
La salida no es un impulso tipo escalón ya que
necesitamos una función derivable (por motivos de
programación) así que aproxima esa señal a una de
tipo sigmoidea (continua y derivable).

29
Redes neuronales artificiales

Una vez establecido el comportamiento de una
neurona artificial, vamos a conectar neuronas
entre sí con el fin de formar una red de
computación.
Las neuronas biológicas están continuamente
creando y destruyendo conexiones, lo que se hace
es regular esta función mediante la variación del
valor de los pesos estableciendo unos valores de
manera aleatoria.
Hay muchos tipos de aprendizaje entre ellos
Década de los 70? sistema de retropropagación
(Algoritmo Back Propagation), en el que cuando la
última capa de salida suelta un valor, comienza
el proceso contrario (propagación hacia atrás)
analizando qué es lo que ha pasado en cada
neurona de cada capa y dando órdenes a cada una
de ellas para ver cómo puede mejorar.

30
Redes neuronales artificiales

Definición de un tipo de red neuronal el
perceptrón.
El método de aprendizaje que utiliza es el
supervisado por corrección de error (Hebbiano).
Presenta una sola neurona
de cómputo, de ahí su sencillez
Las neuronas de menor tamaño pertenecen a la capa
de entrada y son parte del formalismo de la red.
Se encargan de recibir y distribuirlos datos del
exterior, sin realizar cómputos sobre los mismos.
Esto significa que el resultado de la neurona va
a tomar uno de los dos valores previstos en la
función escalón (-1 y 1). El valor de la salida
dependerá de si X1W1X2W2 es mayor o menor que
el umbral ?.
Por tanto se establece la
siguiente ecuación

31
Redes neuronales artificiales

Existen otros casos mucho más complejos, los
cuales, parten de la idea básica de éste
Perceptrón multicapa
Consiste en poner varias capas elementales
interconectadas sucesivamente con el objeto de
dotar a la red de la complejidad suficiente para
realizar la tarea requerida.
Perceptrón multicapa con capas de retardo
Es el modelo más complejo. Consiste en la
inclusión de bloques (o capas) de neuronas que
toman como entradas las salidas de otro/s
bloque/s en el instante anterior.
Esto permite que la red sea un sistema con
memoria a corto plazo (o en fase operativa).
Esta memoria es muy diferente a la memoria debida
al entrenamiento que presenta el sistema global
(que podría llamarse memoria a largo plazo o
memoria en fase de entrenamiento).

32
Redes neuronales artificiales

Entrenamiento de varias capas
Con varias capas ya no tenemos un sistema de
ecuaciones lineales porque no hemos aplicado sólo
una no linealidad sino que hemos aplicado una no
linealidad a una aplicación lineal de varias no
linealidades y esto ya no se puede resolver como
un sistema de ecuaciones lineales. Al no tener
una solución directa podemos pensar en buscar
llegar a la solución siguiendo varios pasos a
partir de un punto. El método de entrenamiento
será por tanto iterativo. Ahora se puede hablar
más propiamente de entrenamiento (mejora por
fases).
Ahora lo que buscamos son dos cosas
Un punto de comienzo (pesos iniciales). Se suelen
escoger unos números aleatorios pero pequeños.
Un camino (o una dirección a seguir en cada
paso). Lo que nos interesa ahora es buscar en
cada paso (cada iteración) una dirección de
nuestro espacio de pesos que nos conduzca por un
camino que lleve al objetivo la minimización del
error. Wn1 Wn ?Wn
Se deben usar las Redes neuronales artificiales
(RNA) de manera eficiente para el reconocimiento
de voz. Para ello se deben elegir las entradas de
la red, las salidas y la estructura necesaria
para que produzca las salidas deseadas (dadas
unas entradas). Después habrá que elegir un
algoritmo de entrenamiento y unos parámetros para
después realizarlo.

33
9. Procesado de voz en los sistemas de
reconocimiento del habla

Objetivo Incorporar la información relevante en
el sistema que facilite la tarea del
reconocimiento.
Características relevantes de la Voz
- La información espectral.
- El tipo de excitación.
- La energía.
Análisis espectral de tiempo corto
-Pre-énfasis.
-La señal es segmentada en tramas.
-Cada trama queda representada por un vector de
características.
-Transformación al dominio cepstral.

34
Procesado de voz en los sistemas de
reconocimiento del habla

Reprensentación de las características
espectrales
CEPSTRUM transformada inversa de Fourier del
logaritmo del espectro.
COEFICIENTES CEPSTRALES muestras del cepstrum.
REPRESENTACIÓN BASADA EN EL MODELO LPC

35
Procesado de voz en los sistemas de
reconocimiento del habla

Reprensentación basada en el Modelo LPC
Señal predicha
Error de predicción
Los coeficientes LPC son aquellos que minimizan
la energía del error (energía residual)
Se plantea el siguiente sistema de p ecuaciones
con p incógnitas.

36
(No Transcript)
37
Procesado de voz en los sistemas de
reconocimiento del habla

Compensación del Efecto del Ruido
Señal de entrada al sistema de reconocimiento ?
voz ruidosa
Soluciones
-Intentar mejorar la señal de voz
-Parametrizar directamente la señal ruidosa.
-Hacer uso de modelos auditivos
Voz limpia a partir de voz ruidosa
-Durante los tramos de silencio, estimar el
espectro de ruido contaminante.
-Sustraérselo al espectro instantáneo de la
señal de entrada.
-La señal temporal es la

38
10. PRODUCTOS DE RECONOCIMIENTO DE VOZ

FreeSpeech 2000
Requiere Pentium/MMX 166 o equivalente 48 MB en
RAM 100MB de espacio en disco duro tarjeta de
sonido compatible con Sound Blaster Microsoft
Windows 95,98 o NT con SP3.
Soporte para dictado en seis idiomas.
Baja precisión?reduce la facilidad de uso.
93 en exactitud y 91 en precisión
Carece de una tarjeta de consulta rápida e
incluye poca información de los comandos.
Los usuarios encontrarán mayor precisión y
facilidad de uso en otros programas que
participan en esta competencia.

39
PRODUCTOS DE RECONOCIMIENTO DE VOZ

L H Voice Xpress Professional, Versión 4
Requiere Pentium II 48 MB en RAM con Microsoft
Windows 95 o 98, o 64 MB con Windows NT 200 MB
de espacio en disco duro tarjeta de sonido de
16 bits compatible con Sound Blaster o micrófono
USB.
Punto fuerte del programa ? comandos intuitivos
con lenguaje natural para Microsoft Word, Excel y
el sencillo procesador de palabras Voice Xpress.

40
PRODUCTOS DE RECONOCIMIENTO DE VOZ

Características de corrección limitadas carecen
de reproducción de audio
94 en precisión
Voice Xpress permite respaldar sus archivos de
voz con facilidad en Iomega Zip Drive.
Los usuarios que desean controlar Excel y Word
por medio de la voz ? Voice Xpress opción
adecuada.

41
PRODUCTOS DE RECONOCIMIENTO DE VOZ

Dragon Naturally Speaking Preferred 4.0
Requiere Pentium MMX/200 o equivalente 48 MB en
RAM 200MB de espacio en disco duro tarjeta de
sonido de 16 bits compatible con Creative Labs
Sound Blaster Microsoft Windows 95 , 98 o NT
Marca el estándar para la facilidad de uso
Navegación Web activada por la voz.

42
PRODUCTOS DE RECONOCIMIENTO DE VOZ

Tiene atajos intuitivos para el dictado y el
formato.
Ej. cap para escribir todo en mayúsculas
Único producto en esta competencia que permite
dictar, corregir y practicar sin utilizar las
manos.
96 de precisión.
Soporte limitado para el lenguaje natural en
aplicaciones distintas de Microsoft Word

43
PRODUCTOS DE RECONOCIMIENTO DE VOZ

Via Voice Pro Millennium Edition
Requiere Pentium/233 o equivalente 48 MB en RAM
con Microsoft Windows 95 o 98, o 64 MB con
Windows NT 100 MB de espacio en disco duro
tarjeta de sonido de 16 bits.
variedad de funcionalidad tanto para aplicaciones
de dictado como de control
Precisión entre 95 y 98
Permite controlar los menús y cuadros de diálogo
en la mayor parte de los programas de Windows,
con comandos en lenguaje natural disponibles para
Microsoft Word y Excel, entre otros.

44
PRODUCTOS DE RECONOCIMIENTO DE VOZ

Permite activar Internet Explorer con la voz.
Naturally Speaking también lo permite, pero sólo
Via Voice numera los elementos de la página, de
modo que puede decir el nombre del elemento
requerido.
Complicado corregir los errores en Via Voice.
El manual del programa sugiere emplear una
combinación de ratón, teclado y voz para editar.
Comandos de formato común como convertir en
negritas las tres últimas palabras únicamente
funcionaron en Microsoft Word.

45
11. APLICACIONES

Medicina
APLICACIÓN EN LA HISTORIA CLÍNICA incluye
descripciones habladas de los hallazgos del
examen físico u otras observaciones
LABORATORIO entrada "on-line" de datos de
laboratorio
APLICACIONES DIAGNÓSTICAS Y TERAPÉUTICAS
desarrollado de redes neuronales multicapa,
entrenadas y probadas utilizando palabras
aisladas pronunciadas por pacientes con
disartria.

46
APLICACIONES

Operadores automáticos
SERVICIO AUTOMATIZADO DE ASISTENCIA DE
DIRECTORIO Proveedores de servicios ofrecen a
sus clientes la posibilidad de obtener un nº de
teléfono manteniendo un diálogo completo con un
sistema activado por la voz.
SPEECHATTENDANT Es una solución de contestación
automática para empresas medianas y grandes que
habilita el enrutamiento de llamadas mediante la
voz.
Capacidad de entender el habla de quienes
realizan las llamadas, incluso de aquéllos que
hablan con acentos extranjeros, y responder a
consultas comunes durante las 24 horas del día,
los 7 días de la semana.

47
APLICACIONES

Móviles
XMODE MULTIMODAL SYSTEM Interacciones para
usuarios de dispositivos personales inalámbricos
mediante combinación de reconocimiento automático
de voz (ASR) y texto a voz (TTS) con multimedia e
Internet móvil.
Integración de interfaces de audio, voz y vídeo
en un único dispositivo móvil y en una sola
sesión.
Discapacitados
Grandes dificultades en el uso del teclado y el
ratón estándar.

48
12. Datos de interés

Algunas aplicaciones que se han conseguido
Command control usar la voz para controlar una
máquina
Form-filling llenar una forma con datos
Automatic dictation hablar en vez de usar el
teclado para escribir
Information retrieval sacar información de un
base de datos
Cooperative task completion usar un diálogo para
lograr una meta
Nivel actual
Los dígitos por teléfono 1 error
Preguntas naturales dentro de un vocabulario
mediano 4 error
Dictado automático de vocabulario grande (pero
dependiente del locutor) 5 error
La transcripción de las noticias 17 error
Entre las opciones de software hablado se
destacan
Dragon Naturally Speaking (www.scansoft.com),
de ScanSoft
ViaVoice (www.ibm.com/software/voice/viavoice),
de IBM.

49
13. Bibliografía

http//www.psicologia-online.com/colaboradores/dpu
chol/modelado.shtml
http//www.jegsworks.com/Lessons-sp/lesson3/lesson
3-5.htm
http//mailweb.udlap.mx/sistemas/tlatoa/courses/s
yllabus.html
http//www.nodo50.org/utlai/num22/221006.htm
http//www.scielo.org.ve/scielo.php?pidS0254-0770
2002000300008scriptsci_arttexttlnges
http//www.imim.es/quark/21/021063.htm
http//www.psicocentro.com/cgi-bin/articulo_s.asp?
textoart49001
http//www.mor.itesm.mx/omayora/TallerHCI-04/Came
raReady/CMiranda.pdf
http//webdiis.unizar.es/jminguez/Silla20de20Ru
edas20Inteligente Controlada por Voz.pdf
http//mailweb.udlap.mx/ingrid/ingrid/articulo_16
6.pdf
http//gps-tsc.upc.es/veu/personal/canton/HablaFlu
ida1.pdf
http//tamarisco.datsi.fi.upm.es/ASIGNATURAS/FRAV/
apuntes/clasifica.pdf
http//www.ejournal.unam.mx/compuysistemas/vol03-0
2/CYS03203.pdf
Nuestro agradecimiento a los alumnos de Ing. de
Telecomunicación en la recopilación de
información