Title: Codage de la parole
1Codage de la parole à très bas débitpassage du
cas dépendant vers le cas indépendant du locuteur
- 6-ème réunion d'avancement SYMPATEX ENST, 19
Septembre 2001 - Dijana Petrovska-DelacrétazGérard Chollet
2PLAN
- 1 Introduction (motivations, objectifs,
situation actuelle) - 2 Codage indépendant du locuteur
- 3 Base de données protocoles expérimentaux
- 4 Résultats
- 5 Conclusions
31.1 SYMPATEX motivations générales
- Permet un codage à très bas débit
- Développement de nouveaux outils pour la
recherche en phonétique - Intègre le paradigme danalyse par la synthèse
- Applications en reconnaissance de la parole
indépendante de la langue - Identification de la langue
- Amélioration de la qualité de la parole
transmise, débruitage
41.2 Objectifs SYMPATEX et situation actuelle
- compression dun message vocal, en diminuant le
débit, - en conservant l'intelligibilité, le naturel,
l'identité du locuteur, et un espace memoire
compatible avec les technologies actuelles - Cas du locuteur unique (dépendant du locuteur)
- Affranchissement de la dépendance au locuteur
51.3 Cas du locuteur unique
- Synthèse
- Synthèse LPC améliorée par la synthèse HNM
- On retient le principe de la synthèse par
concaténation - Questions ouvertes
- quelles unités de synthèse choisir ?
- Comment concatener ces unités?
- Protocole d'évaluation pas comparable
62. Affranchissement de la dépendance au locuteur
- Comment resoudre ce problème ?
- Codage indépendant du locuteur (multi)
- Faire une transformation de locuteur
- Codage indépendant du locuteur, et synthèse
seulement avec des unités du locuteur le plus
proche (multi-proche) - Faire la reco multi-locuteur
- Choisir le locuteur le plus proche
- Choix des unités de synthèse appartenant a ce
locuteur
72.1 Codage indépendant du locuteur
- Entraîner le codeur avec suffisamment de données
parole dun échantillon représentatif - Tester avec un ensemble de locuteurs disjoints
- Experience de comparaison mono-multi locuteur
unique ? indépendant du locuteur
8 2.2 Base de données BREF
- Corpus français, textes lus, du journal  Le
Monde - 120 locuteurs, env. 40-70 min de parole par
loc.(texte différents, sauf phrases type a) - 80 locuteurs pour lentraînement,
- 40 de développement et
- 20 de test
- Pour ces expériences, subdiviser les données en
deux groupes ("male and female") - On travaille pour commencer avec les locuteurs
féminins( 44 train et 10 test) - Enregistrement qualité studio, échantillonné Ã
16kHz
92.3 Protocole expérimental pour mono-multi
- Rappel du principe codage par reco et synthèse
- RECONNAISSANCE
- Entraînement des modèles HMM (des unités ALISP),
avec données "train" - Faire la reco sur les données de test disjointes
notées comme données "test" - SYNTHESE
- Choix de l'ensemble des unités de synthèse
- Méthode de synthèse (LPC)
102.4 suite
- Partitionnement de BREF pour les exp. Mono-Multi
- 44 locuteurs "multi-train"
- 1 locuteur pour les tests des experiences
mono-multi - Partitionner ces donnes en "mono-train" et
"multi-mono-test" (notées "test") - On peut recommencer avec un autre locuteur pour
les tests ou experiences mono-multi - On a les ensembles (disjoints) suivants
multi-train , multi-mono-test (test) et
mono-train
112.5 suite protocole experimental
- Experiences mono-multi
- Multi-train 44 locuteurs féminins, env. 44
heures de données parole - Multi-mono-test centaine de phrases du locuteur
unique - Mono-test reste des données du locuteur unique
122.6 Nomencature des fichiers sons du locuteur j5f
- Locutuer j5f, et sa phrase 200 (courte) pour les
tests - Explication des noms
- Phrase-(ex. 200)
- -typeExperience- (mono pour dependant du
locuteur)
(multi pour indédependant du locuteur) - ensembleUnitesSynthese-
- -methodeSynthese
- Example 200-multi-340SU-LPC.wav
132.7 Example
- Example pour locuteur j5f 200-multi-340SU-LPC.wav
- phrase de test 200
- reco avec les modèles ALISP-HMM provenant de
lentraînement multi (44Fema) - 340 unités de synthèse utilisées
- Synthèse LPC utilisée
143.1 Résultats comparaisons mono-multi
etinfluence du nombre d'unités de synthèse
- Exp. mono
- 200-mono-340SU-LPC.wav 340 unités de synthèse
- 200-mono-6kSU-LPC.wav (env. 6000) 6k unités
- Exp. multi
- 200-multi-340SU-LPC.wav 340 unités de synthèse
- 200-multi-6kSU-LPC.wav (env. 6000) 6k unités
153.2 Résultats comparaisons mono avec multi
etmulti-proche
- Exp. mono
- 200-mono-6kSU-LPC.wav (env. 6000) 6k unités
- Exp. multi
- 200-multi-6kSU-LPC.wav (env. 6000) 6k unités
- Exp. multi
- 200-multi-near6kSU-LPC.wav (env. 6000) 6k
unités
164. Conclusions
- Le passage indépendant du locuteur semble
franchissable - Reste à definir un protocole d'evaluation des
fichiers synthétisées (avec une phrase, et un
cobaye l'évaluation nest pas fiable) - Choisir la meilleure synthèse HNM du cas
dépendant du locuteur puis l'adapter au cas
indépendant au locuteur
17 Et à plus longs termes...
- utiliser la technique ALISP de codage avec
- des références étiquetées phonétiquement
- pour faciliter la reconnaissance automatique
- de la parole
- expérimenter le codage ALISP en vérification du
locuteur