Title: Conversion de voix pour la synthse de la parole
1Conversion de voix pour la synthèse de la parole
Taoufik En-Najjry 21 septembre 2006
2Plan
- Introduction
- État de lart
- Conversion conjointe du timbre et du pitch
- Conclusion et perspectives
3Introduction
- Définition modifier le signal de parole dun
locuteur source de telle façon que le signal
résultant semble avoir été prononcé par le
locuteur cible - Exemples d'application
- Doublage de films
- Diversification des voix de synthèse
- Nous nous intéressons à la conversion de voix
dans le cadre de la synthèse de la parole à
partir du texte
4Conversion de voix et synthèse de la parole
- Créations de corpus pour la synthèse fastidieux
et coûteux - Enregistrement du corpus 10 heures de parole
environ - Traitements associés aux bases (phonétisation,
segmentation, vérification) - Plusieurs mois pour créer une nouvelle voix !
5Problèmes à résoudre
- Quels sont les paramètres caractéristiques de
lidentité vocale ? - Comment apprendre une nouvelle voix ?
- Comment transformer une voix ?
6Paramètres caractéristiques de lidentité vocale
- Niveau segmental
- Enveloppe spectrale (timbre)
- Pitch
- Signal glottique
- Niveau supra-segmental
- Évolution des paramètres du niveau segmental
- Acoustique (trajectoires des formants)
- Prosodique (contours de pitch et dénergie, durée
des phonèmes, ) - Informations liées au style délocution
- Niveau linguistique
- Choix des mots, dialectes, accents régionaux, ...
7Principes de la conversion de voix
Modèle
Source
Cible
Fonction de conversion
paramètres
paramètres
Analyse
Analyse
parole
parole
Alignement
Modèle
Source
Paramètres source
Paramètres convertis
Analyse
Synthèse
Fonction de conversion
parole
parole convertie
résidu
8État de lart
- Paramètres
- Enveloppe spectrale
- Fréquence fondamentale (Pitch)
- Conversion du timbre
- Quantification vectorielle Abe88, Arslan 94
- Régression linéaire Hermansky89, Valbret92
- Réseaux de neurones Narendranath95
- Modèle de mélange de gaussiennes (GMM)
Stylianou95, Kain98, En-Najjary 2004 - Normalisation global du pitch
- Prendre en compte la moyenne et la variance de la
cible - Ces méthode ne permettent pas de refléter des
différences de style entre deux locuteurs
9Corrélation entre le pitch et lenveloppe
spectrale
- Observations
- Dépendance entre le pitch et l'enveloppe
spectrale Syrdal - Ajustement de l'enveloppe spectrale après une
modification de pitch Tanaka, Stylianou - Prédiction du timbre à partir du pitch
En-Najjary - Prendre en compte de la corrélation entre
les informations liées au timbre et au pitch - Approches
- Conversion conjointe du timbre et du pitch par GMM
10Principe de la conversion par GMM
- Alignement des trames source x et cible y
- Modélisation de la densité jointe z(x,y) par GMM
- Apprentissage des paramètres par algorithme EM
- Fonction de transformation
11Conversion conjointe du timbre et du pitch (2)
Phase dapprentissage
- Fonction de conversion pour les trames voisées
- Vecteurs paramètres coefficients cepstraux
pitch normalisé - Modélisation de la densité conjointe de la source
et de la cible par GMM
Cible
Source
Parameters cepstraux
Parameters cepstraux
Fonction de conversion conjointe
Analyse HNM
Analyse HNM
parole
parole
- Pour les trames non voisées seuls les
coefficients cepstraux sont utilisés
12Conversion conjointe du timbre et du pitch (3)
Phase de transformation
pitch
normalisation
denormalisation
Source
Fonction de conversion conjointe
V
V
Synthèse HNM
Analyse HNM
Coefficients cepstraux
V/NV?
NV
NV
Fonction de conversion du timbre
Parole
Coefficients cepstraux
Parole convertie
Résidu
13Conversion conjointe évaluation objective (1)
- Mesure objective Distorsion de pitch normalisée
14Conversion conjointe évaluation objective (2)
- Mesure objective distorsion spectrale
normalisée
Femme -gt Homme
Homme -gt Femme
- La conversion conjointe améliore la conversion de
l'enveloppe spectrale
(b)
15Conversion conjointe évaluation subjective (1)
- A quoi comparer la conversion conjointe ?
- La conversion classique conversion du
timbrenormalisation du pitch - La parole naturelle La cible
- Plaquage acoustique parole source sur laquelle
sont calqués le timbre et le pitch de la cible
(borne supérieure) - Evaluation subjective (test MOS)
- 20 phrases
- 12 auditeurs
16Conversion conjointe évaluation subjective (1)
- Test 1 Comparaison des conversions conjointe et
classique - MOS
- 3.63 pour la conversion conjointe
- 2.44 pour la conversion classique
- Test 2 Comparaison de la conversion conjointe
avec le plaquage acoustique et la parole
naturelle - MOS
- Conversion conjointe 2.76
- Plaquage acoustique 3.22
- Parole naturelle cible 5
17Conversion conjointe démonstration
Source
Conversion conjointe
Plaquage acoustique
18Conclusion et perspectives
- Conversion conjointe
- Transformation locale de la fréquence
fondamentale - Conversion du timbre plus robuste
- Perspectives
- Modélisation du signal Tenir explicitement
compte des caractéristiques du signal glottique - Conversion à l'échelle Supra-segmentale
- Prendre en compte la dépendance temporelle entre
trames - Utiliser des modèles prosodiques qui
permettraient de transformer le rythme et
lintonation