Antecedentes - PowerPoint PPT Presentation

1 / 1
About This Presentation
Title:

Antecedentes

Description:

... el Corpus 230 (Villase or, et al. 2004 ) en el INAOE. 344,619 ... Realizando pruebas en vivo con 4 voluntarios leyendo 30 frases del corpus cada uno al azar. ... – PowerPoint PPT presentation

Number of Views:156
Avg rating:3.0/5.0
Slides: 2
Provided by: lori226
Category:
Tags: al | antecedentes | azar

less

Transcript and Presenter's Notes

Title: Antecedentes


1
El corpus DIMEx100Luis A. Pineda y el grupo
DIMEluis_at_leibniz.iimas.unam.mx
Departamento de Ciencias de la Computación
  • Antecedentes
  • La disponibilidad de un corpus fonético, para la
    creación de modelos acústicos en español (de
    México) es limitada.
  • La creación de un corpus fonético aporta
    conocimiento lingüístico a los sistemas
    computacionales lo cual puede favorecer el
    reconocimiento de habla
  • Primer conjunto de datos, el Corpus 230
    (Villaseñor, et al. 2004 ) en el INAOE.
  • 344,619 frases
  • 235,891 unidades léxicas
  • 15 millones de palabras
  • Para el corpus DIMEx100 se eligieron 7000 frases
    de acuerdo a su menor valor de perplejidad.
  • Después de un proceso de edición, finalmente el
    corpus de texto se redujo a 5010 frases
  • Todo sobre la guerra contra el terrorismo
  • Avancemos con el resto de las opciones
  • 100 hablantes / 6000 archivos de audio
  • Cada uno grabó 60 frases (10 comunes y 50
    individuales)
  • Etiquetación
  • Los niveles de etiquetación son
  • T54 fina
  • T44 semifina
  • El Corpus DIMEx100 Un recurso lingüistico
    computacional
  • El corpus está disponible a la comunidad
    científica
  • ISBN 970-32-3395-3
  • Archivos de audio
  • Etiquetado fonético en 3 niveles (T54, T44 y T22)
    y etiquetado a nivel de palabra (Tp)
  • Evaluación del corpus Construcción del
    reconocedor
  • DIMEx30-T22
  • Para construir el reconocedor se utilizó la
    herramienta Sphinx. Se empleó 30 del corpus para
    la construcción de los modelos acústicos y 5
    adicional se reservó para pruebas. Se realizaron
    3 pruebas
  • Utilizando el mismo 30 del corpus de
    entrenamiento.
  • Utilizando el 5 adicional.
  • Realizando pruebas en vivo con 4 voluntarios
    leyendo 30 frases del corpus cada uno al azar.
  • Resultados

Referencias http//leibniz.iimas.unam.mx/luis/DIM
E/ L. A. Pineda, L. Villaseñor, J. Cuétara, H.
Castellanos, I. López, DIMEx100 A new phonetic
and speech corpus for Mexican Spanish, in
Advances in Artificial Intelligence,
Iberamia-2004, C. Lemaitre, C. A Reyes J. A.
Gonzalez (Eds.), Lectures Notes in Artificial
Intelligence 3315, pp. 974983. Springer-Verlag,
Berlin Heidelberg, 2004.
Write a Comment
User Comments (0)
About PowerShow.com