Title: Conversion de voix pour la synthse vocale
1Conversion de voix pour la synthèse vocale
Taoufik En-Najjary
Ce travail a été effectué dans le laboratoire
SSTP de la division RD de France Télécom-Lannion
2Plan
- Cadre de létude
- Conversion du timbre
- " du pitch
- " conjointe du timbre et du pitch
- " avec des bases non parallèles
- Conclusion et perspectives
3Cadre de l'étude
- Définition modifier le signal de parole dun
locuteur source de telle façon que le signal
résultant semble avoir été prononcé par le
locuteur cible - Nous nous intéressons à la conversion de voix
dans le cadre de la synthèse de la parole à
partir du texte - Exemples d'application
- Diversification des voix de synthèse
- Unification de messages vocaux
- Doublage de films
4Cadre de l'étude
- Créations de corpus pour la synthèse fastidieux
et coûteux - Enregistrement du corpus 10 heures de parole
environ - Traitements associés aux bases (phonétisation,
segmentation, vérification) - Plusieurs mois pour créer une nouvelle voix !
- Problèmes à résoudre
- Quels sont les paramètres caractéristiques de
lidentité vocale ? - Comment apprendre une nouvelle voix ?
- Comment transformer une voix ?
5Production de la parole
- Interaction entre les systèmes neurologique et
physiologique - Processus physiologique
- Production dune source vocale
- Modifié par le conduit vocal
- Bruit d'aspiration
- Bruit de friction
- Plosion
- Voisement
- Représentation du signal de parole
- Prédiction linéaire
- Modèle source-filtre
6Le modèle source-filtre
V/NV
cavité nasale
lèvres
cavité buccale
Glotte
Signal de parole
Source
Filtre
Enveloppe spectrale
7Paramètres caractéristiques de lidentité vocale
- Niveau trame
- Enveloppe spectrale (timbre)
- Pitch
- Signal glottique
- Niveau segmental
- Evolution des paramètres du niveau trame
- Acoustique (trajectoires des formants)
- Prosodique (contours de pitch et dénergie, durée
des phonèmes, ) - Informations liées au style délocution
- Niveau linguistique
- Choix des mots, dialectes, accents régionaux, ...
8Principes de la conversion de voix
Modèle
Source
Cible
Fonction de conversion
paramètres
paramètres
Analyse
Analyse
parole
parole
Alignement
Modèle
Source
Paramètres source
Paramètres convertis
Analyse
Synthèse
Fonction de conversion
parole
parole convertie
résidu
9Objectif de la thèse
- Etat de l'art
- Transformation du timbre (LSF, cepstre, formants,
) - Normalisation de la fréquence fondamentale
- Contributions
- Choix de la modélisation spectrale pour la
conversion du timbre - Proposition d'une nouvelle méthode de conversion
du pitch - Conversion de voix sur des corpus non parallèles
10Plan
- Cadre de létude
- Conversion du timbre
- " du pitch
- " du timbre et du pitch
- " avec des bases non parallèles
- Conclusion et perspectives
11Conversion du timbre
- Quantification vectorielle Abe88, Arsalan
- Régression linéaire Hermansky89, Valbret92
- DFW Valbret92
- Réseaux de neurones Narendranath95
- Modèle de mélange de gaussiennes (GMM)
Stylianou95, Kain98, Chen03 - GMM une technique de référence pour la
conversion du timbre
12Conversion du timbre par GMM
- Alignement des trames source x et cible y
- Modélisation de la densité jointe z(x,y) par GMM
- Apprentissage des paramètres par algorithme EM
- Fonction de transformation
13Quelle paramétrisation ?
- Comparaison des modélisations de l'enveloppe
spectrale par paramètres LSF et cepstre discret - Base de données utilisées corpus Agnès et
Philippe - Test objectifs
- Distorsion spectrale
- Les deux paramétrisations conduisent à des
résultats similaires
14Quelle paramétrisation ?
- Evaluation subjective
- Nécessité de combiner modifications du timbre et
du pitch - Problème origine des dégradations difficile à
identifier - Comparaison de la qualité de codage des
paramètres LSF et cepstre discret par test MOS - 20 phrases de test
- 12 auditeurs
- Notation sur une échelle à 5 niveaux
- Résultats du tests
- Cepstre discret MOS 4.3
- LSF MOS 4.2
- Comparaison des paires de notes
- 93 des phrases sont jugées équivalentes
- 7 des phrases donnent la préférence au cepstre
discret (MOS2)
15Quelle paramétrisation ?
- Mesures objectives similaires
- Le cepstre discret permet une qualité de codage
meilleure que les paramètres LSF - La stabilité des filtres LSF transformés non
garantie - Choix du cepstre discret pour le reste du
travail
16Plan
- Cadre de létude
- Conversion du timbre
- Conversion du pitch
- " conjointe du timbre et du pitch
- " sur des bases non parallèles
- Conclusion et perspectives
17Conversion du pitch
- Etat de l'art
- Normalisation globale du pitch
- Transformations linéaires par morceaux Gillet03
- Aucune méthode de conversion ne permet de
refléter des différences de style prosodique
entre deux locuteurs - Observations
- Dépendance entre le pitch et l'enveloppe
spectrale Syrdal - Ajustement de l'enveloppe spectrale après une
modification de pitch Tanaka, Stylianou - Exploiter la corrélation entre les
informations liées au timbre et au pitch - Deux approches
- Prédiction du pitch à partir de l'enveloppe
spectrale convertie - Conversion conjointe du timbre et du pitch
18Prédiction du pitch (1)
- Normalisation du pitch
- Modélisation conjointe du cepstre discret et du
pitch normalisé de la cible par GMM - Estimation des paramètres GMM par algorithme EM
- Fonction de prédiction du pitch
19Prédiction du pitch (2)
20Prédiction du pitch en conversion de voix
- Mise en oeuvre en conversion de voix
- Conversion du timbre par GMM
- Prédiction du pitch à partir du timbre converti
- Performances
- Bonne prédiction de pitch quand le timbre est
bien converti - Mais manque de robustesse
Source
Paramètres spectraux
Paramètres spectraux
Conversion du timbre
Analyse
Synthèse
Pitch
parole convertie
Prédiction du pitch
parole
Résidu
Approche proposée conversion conjointe de
lenveloppe spectrale et du pitch
21Plan
- Cadre de létude
- Conversion du timbre
- " du pitch
- Conversion conjointe du timbre et du pitch
- " avec des bases non parallèles
- Conclusion et perspectives
22Conversion conjointe du timbre et du pitch (1)
Phase dapprentissage
- Fonction de conversion pour les trames voisées
- Vecteurs paramètres coefficients cepstraux
pitch normalisé - Modélisation de la densité conjointe de la source
et de la cible par GMM
Cible
Source
Paramètres cepstraux
Paramètres cepstraux
Fonction de conversion conjointe
Analyse HNM
Analyse HNM
parole
parole
- Pour les trames non voisées seuls les
coefficients cepstraux sont utilisés
23Conversion conjointe du timbre et du pitch (2)
Phase de transformation
pitch
normalisation
denormalisation
Source
Fonction de conversion conjointe
V
V
Synthèse HNM
Analyse HNM
Coefficients cepstraux
V/NV?
NV
NV
Fonction de conversion du timbre
Parole
Coefficients cepstraux
Parole convertie
Résidu
24Conversion conjointe évaluation objective (1)
- Mesure objective Distorsion de pitch normalisée
25Conversion conjointe évaluation objective (2)
- Mesure objective distorsion spectrale
normalisée
Agnès -gt Philippe
Philippe -gt Agnès
- La conversion conjointe améliore la conversion de
l'enveloppe spectrale
(b)
26Conversion conjointe évaluation subjective (1)
- A quoi comparer la conversion conjointe ?
- La conversion classique conversion du
timbrenormalisation du pitch - Plaquage acoustique parole source sur laquelle
sont calqués le timbre et le pitch de la cible - La parole naturelle
- Evaluation subjective (test MOS)
- 20 phrases
- 12 auditeurs
27Conversion conjointe Evaluation subjective (2)
- Test 1 Comparaison des conversions conjointe et
classique - MOS
- 3.63 pour la conversion conjointe
- 2.44 pour la conversion classique
- Comparaison des paires de notes
- 71.25 donnent la préférence à la conversion
conjointe - 26.25 des phrases sont jugées équivalentes
- 2.5 donnent la préférence à la conversion
classique
28Conversion conjointe évaluation subjevtive (3)
- Test 2 Comparaison de la conversion conjointe
avec le plaquage acoustique et la parole
naturelle - MOS
- Conjointe 2.76
- Plaquage 3.22
- Naturelle 5
- Comparaison de paires de notes
- Conjointe gt plaquage 12.8
- Conjointe plaquage 37.2
- Plaquage gt conjointe 48
29Conversion conjointe démonstration
Source
Conversion conjointe
Plaquage acoustique
30Plan
- Cadre de létude
- Conversion du timbre
- " du pitch
- " conjointe du timbre et du pitch
- Conversion avec des bases non parallèles
- Conclusion et perspectives
31Conversion avec des corpus non parallèles (1)
- Problème comment caractériser le parallélisme
de deux corpus ? - Correspondance phonétique prérequis minimal
- Correspondance prosodique (symbolique)
- Intérêt de l'utilisation de corpus non parallèles
rendre la conversion de voix plus réaliste - État de l'art
- Adaptation au locuteur par HMM
- Composition de plusieurs fonctions de
transformation apprises sur des corpus parallèles - Qualité de parole convertie jugée médiocre /
corpus parallèles - Méthode proposée utiliser de la parole générée
par un système de synthèse par corpus comme base
d'apprentissage
32Conversion avec des corpus non parallèles (2)
- Type de transformation
- Référence -gt cible
- Source -gt référence
- Source -gt cible (cas général)
33Conversion avec des corpus non parallèles (3)
- Évaluation objective
- Distorsion spectrale
34Conversion avec corpus non parallèles (4)
- Evaluation subjective
- MOS
- 2.98 pour un conversion parallèle
- 2.75 non parallèles
- Comparaison des paires de notes
- PgtNP 43
- PNP 38
- NPgtP 21
35Conversion avec des corpus non parallèles (5)
Source
Cible
Non parallèles
Parallèles
36Plan
- Cadre de létude
- Conversion du timbre
- " du pitch
- " conjointe du timbre et du pitch
- " avec des bases non parallèles
- Conclusion et perspectives
37Conclusion
- Principales réalisations
- Prédiction du pitch précise
- Transformation locale de la fréquence
fondamentale - Conversion du timbre plus robuste
- Adaptation d'un système de conversion dans le cas
de corpus non parallèles
38Perspectives
- Evaluation des techniques proposées
- Evaluation sur d'autres bases de données
- Evaluation de la conversion non parallèle dans le
cas général - Modélisation du signal
- Tenir explicitement compte des caractéristiques
du signal glottique - Conversion à l'échelle segmentale
- Prendre en compte la dépendance temporelle entre
trames - Utiliser des modèles prosodiques qui
permettraient de transformer le rythme et
lintonation