Antecedentes

About This Presentation

Title:

Antecedentes

Description:

... el Corpus 230 (Villase or, et al. 2004 ) en el INAOE. 344,619 ... Realizando pruebas en vivo con 4 voluntarios leyendo 30 frases del corpus cada uno al azar. ... – PowerPoint PPT presentation

Number of Views:156

Avg rating:3.0/5.0

Slides: 2

Provided by: lori226

Category:

Tags: al | antecedentes | azar

more less

Transcript and Presenter's Notes

Title: Antecedentes

1
El corpus DIMEx100Luis A. Pineda y el grupo
DIMEluis_at_leibniz.iimas.unam.mx
Departamento de Ciencias de la Computación

Antecedentes
La disponibilidad de un corpus fonético, para la
creación de modelos acústicos en español (de
México) es limitada.
La creación de un corpus fonético aporta
conocimiento lingüístico a los sistemas
computacionales lo cual puede favorecer el
reconocimiento de habla
Primer conjunto de datos, el Corpus 230
(Villaseñor, et al. 2004 ) en el INAOE.
344,619 frases
235,891 unidades léxicas
15 millones de palabras
Para el corpus DIMEx100 se eligieron 7000 frases
de acuerdo a su menor valor de perplejidad.
Después de un proceso de edición, finalmente el
corpus de texto se redujo a 5010 frases
Todo sobre la guerra contra el terrorismo
Avancemos con el resto de las opciones
100 hablantes / 6000 archivos de audio
Cada uno grabó 60 frases (10 comunes y 50
individuales)

Etiquetación
Los niveles de etiquetación son
T54 fina
T44 semifina

El Corpus DIMEx100 Un recurso lingüistico
computacional
El corpus está disponible a la comunidad
científica
ISBN 970-32-3395-3
Archivos de audio
Etiquetado fonético en 3 niveles (T54, T44 y T22)
y etiquetado a nivel de palabra (Tp)

Evaluación del corpus Construcción del
reconocedor
DIMEx30-T22
Para construir el reconocedor se utilizó la
herramienta Sphinx. Se empleó 30 del corpus para
la construcción de los modelos acústicos y 5
adicional se reservó para pruebas. Se realizaron
3 pruebas
Utilizando el mismo 30 del corpus de
entrenamiento.
Utilizando el 5 adicional.
Realizando pruebas en vivo con 4 voluntarios
leyendo 30 frases del corpus cada uno al azar.
Resultados

Referencias http//leibniz.iimas.unam.mx/luis/DIM
E/ L. A. Pineda, L. Villaseñor, J. Cuétara, H.
Castellanos, I. López, DIMEx100 A new phonetic
and speech corpus for Mexican Spanish, in
Advances in Artificial Intelligence,
Iberamia-2004, C. Lemaitre, C. A Reyes J. A.
Gonzalez (Eds.), Lectures Notes in Artificial
Intelligence 3315, pp. 974983. Springer-Verlag,
Berlin Heidelberg, 2004.

Write a Comment

User Comments (0)