Title: SSML
1SSML
- Speech Synthesys markup language
- Estado actual del estándar SSML para la síntesis
del habla dentro del Speech Interface Framework
desarrollado por el grupo de trabajo Voice
Browser del W3C
Autor Mario Rodríguez Boya
2Índice de Contenidos
- Introducción
- Proceso de Síntesis del Habla
- Formato de un Documento SSML
- Integración con otros Lenguajes
- Implementaciones Actuales
- Desafíos Futuros
- Conclusiones
3Introducción
- Lenguaje de marcas basado en XML
- Especificación desarrollada por el Voice Browser
Working Group - Parte del W3C Speech Interface Framework
- Método estándar para la pronunciación, tono,
volumen, velocidad - Generación automática (XSLT) o manual
4Índice de Contenidos
- Introducción
- Proceso de Síntesis del Habla
- Formato de un Documento SSML
- Integración con otros Lenguajes
- Implementaciones Actuales
- Desafíos Futuros
- Conclusiones
5Proceso de Síntesis del Habla
- Análisis Gramatical
- Análisis de la Estructura
- Normalización del Texto
- Conversión del Texto a Fonemas
- Análisis Prosódico
- Generación de la Forma de Onda
6Proceso de Síntesis del Habla
- Análisis Gramatical
- Se extraen las etiquetas del árbol
- La estructura, etiquetas y atributos extraídos
serán utilizados en las etapas posteriores
7Proceso de Síntesis del Habla
- Análisis de la Estructura
- Markup Support ltpgt y ltsgt
- Non-Markup Behaviour Procesador de Sintesis (por
defecto)
8Proceso de Síntesis del Habla
- Normalización del Texto
- Construcciones especiales (1/2, 100 )
- Ambigüedad
- Markup Support ltsay-asgt
- Non-Markup Behaviour
- Procesador de síntesis
- Múltiples posibilidades
- Análisis del contexto
- Errores muy probables en la transformación
9Proceso de Síntesis del Habla
- Conversión del Texto a Fonemas
- Deducir la pronunciación de las palabras
- Distintos tipos de lenguajes ? Distintos tipos de
conversiones (uno a uno, muchos a uno...) - Markup Support ltphonemegt
- Non-Markup Behaviour procesador de síntesis
(diccionario de pronunciación)
10Proceso de Síntesis del Habla
- Análisis Prosódico
- Prosodia conjunto de rasgos del habla
- Buena prosodia ? Voz humana natural y
comprensible - Markup Support ltemphasisgt, ltbreakgt y ltprosodygt
- Non-Markup Behaviour procesador de síntesis muy
efectivo al establecer los rasgos
11Proceso de Síntesis del Habla
- Generación de la Forma de Onda
- Llevada a cabo automáticamente por el procesador
de síntesis (Non-Markup Behaviour) - Se puede solicitar explícitamente (Markup Suport)
una voz con determinadas cualidades (e.g. Voz de
una mujer joven)
12Índice de Contenidos
- Introducción
- Proceso de Síntesis del Habla
- Formato de un Documento SSML
- Integración con otros Lenguajes
- Implementaciones Actuales
- Desafíos Futuros
- Conclusiones
13Formato de un Documento SSML
- DOCTYPE
- lt!DOCTYPE speak PUBLIC "-//W3C//DTD SYNTHESIS
1.0//EN" "http//www.w3.org/TR/speech-synthesis/sy
nthesis.dtd"gt - Elemento Raíz ltspeakgt
- lt?xml version"1.0"?gt
- ltspeak version"1.0" xmlns"http//www.w3.org/2001
/10/synthesis" - xmlnsxsi"http//www.w3.org/2001/XMLSche
ma-instance" - xsischemaLocation"http//www.w3.org/200
1/10/synthesis - http//www.w3.org/TR/speech-synthesis/syn
thesis.xsd" - xmllang"en-US"gt
14Formato de un Documento SSML
- ltspeak version"1.0" xmlns"http//www.w3.org/20
01/10/synthesis" xmlnsxsi"http//www.w3.org/20
01/XMLSchema-instance" xsischemaLocation"http
//www.w3.org/2001/10/synthesis
http//www.w3.org/TR/speech-synthesis/synthesis.xs
d" xmllang"es"gt - ltpgt
- ltsgt Tienes 4 mensajes.lt/sgt
- ltsgt
- El primero es de Mario, recibido a las
ltbreak/gt 345pm. - lt/sgt
- ltsgt
- El asunto es ltprosody
rate"-20"gtvacacioneslt/prosodygt - lt/sgt
- lt/pgt
- lt/speakgt
15Formato de un Documento SSML
-
- ltpgt
- ltvoice gender"female"gt
- La canción habla de dos personas
- lt/voicegt
- lt/pgt
- ltpgt
- ltvoice gender"male"gt
- Aquí tiene una muestra
- ltaudio src"http//www.example.com/music.wav"
/gt - Le gustaría comprar la canción?
- lt/voicegt
- lt/pgt
16Índice de Contenidos
- Introducción
- Proceso de Síntesis del Habla
- Formato de un Documento SSML
- Integración con otros Lenguajes
- Implementaciones Actuales
- Desafíos Futuros
- Conclusiones
17Integración con otros Lenguajes
- Colabora con SMIL para descripción de
aplicaciones multimedia con salida de voz - Complementa a ACSS
- Mayor funcionalidad que ACSS
- ACSS controla mejor el aspecto espacial
- Junto con VoiceXML permite el desarrollo de
navegadores de voz
18Índice de Contenidos
- Introducción
- Proceso de Síntesis del Habla
- Formato de un Documento SSML
- Integración con otros Lenguajes
- Implementaciones Actuales
- Desafíos Futuros
- Conclusiones
19Implementaciones Actuales
- Loquendo TTS
- Microsoft Speeh Server aplicaciones de telefonía
por voz - OptimTalkv
- Voice Center
- Código Abierto FreeTTS
20Índice de Contenidos
- Introducción
- Proceso de Síntesis del Habla
- Formato de un Documento SSML
- Integración con otros Lenguajes
- Implementaciones Actuales
- Desafíos Futuros
- Conclusiones
21Desafíos Futuros
- Normalización del texto
- Homógrafos
- Abreviaturas
- Símbolos
- Implantación en navegadores Web
- Naturalización del habla
- Prosodia
- Comunicación fluida
22Índice de Contenidos
- Introducción
- Proceso de Síntesis del Habla
- Formato de un Documento SSML
- Integración con otros Lenguajes
- Implementaciones Actuales
- Desafíos Futuros
- Conclusiones
23Conclusiones
- Estándares del W3C Voice Browser Group sirven
para interacción hombre-máquina de forma natural - SSML ofrece control de la prosodia por parte del
autor o automático - Problemas en la inferencia de significado de
símbolos y abreviaturas en distintos contextos
24Fin
Hola estudiantes del curso de doctorado
Tecnologías, estándares y servicios Web, espero
que les haya gustado la presentación de Mario
SSML Estado actual del estándar SSML para
la síntesis del habla dentro del Speech
Interface Framework desarrollado por el agrupo
de trabajo Voice Browser del W3C Autor Mario
Rodríguez Boya