Reconnaissance du locuteur - PowerPoint PPT Presentation

1 / 21
About This Presentation
Title:

Reconnaissance du locuteur

Description:

Processus de d cision utilisant des caract ristiques du signal de parole pour ... Secteur en plein essor, mais besoins pr ciser. S minaire CNRT - Les Technologies Vocales ... – PowerPoint PPT presentation

Number of Views:810
Avg rating:3.0/5.0
Slides: 22
Provided by: conqst
Category:

less

Transcript and Presenter's Notes

Title: Reconnaissance du locuteur


1
Reconnaissance du locuteur
  • Frédéric BIMBOT
  • IRISA (CNRS INRIA)
  • Projet METISS

2
Plan de lexposé
  • Définitions Motivations
  • Typologie Fonctionnement
  • Fondements Théoriques
  • Evaluation des Performances
  • Applications
  • Conclusions

3
Définitions
  • Reconnaissance du locuteur
  • Processus de décision utilisant des
    caractéristiques du signal de parole pour
    déterminer des éléments dinformation sur
    lidentité du locuteur dun énoncé donné
  • Vérification du locuteur ? acceptation / rejet
    (authentification)
  • Identification du locuteur ? qui est-ce (1 parmi
    N) ?
  • Caractérisation du locuteur ? à quelle catégorie
    appartient X ?

4
Motivations (et limitations)
  • Existence de facteurs de spécificités de la voix
  • morphologie du conduit vocal
  • différences physiologiques / motrices
  • facteurs socio-culturels
  • SIGNATURE VOCALE
  • Nombreuses sources de variabilité
  • variabilité intra-locuteur (état de santé,
    émotionnel, etc)
  • environnement (bruits ambiants, distorsions,
    etc)
  • modifications intentionnelles (masquage,
    imitation, )
  • PAS DEMPREINTE VOCALE

5
Typologie
  • Tâches (et sous-tâches)
  • identification
  • vérification
  • caractérisation
  • segmentation
  • détection
  • dénombrement
  • sélection
  • Type de parole en entrée
  • mot de passe commun
  • mot de passe individuel
  • DEPENDANTS DU TEXTE
  • texte quelconque
  • INDEPENDANTS DU TEXTE
  • texte prompté

6
Fonctionnement (vérification)
Parole
Acceptation Rejet
Vérification du Locuteur
Décision
Identité proclamée
Vérification Test dhypothèse binaire
Deux types derreur - fausse acceptation -
faux rejet
MODELISATION PROBABILISTE THEORIE DE LA DECISION
7
Fondements théoriques(structure)
  • 3 modes de fonctionnement
  • installation (initialisation)
  • apprentissage (entraînement)
  • reconnaissance (accès)
  • 4 modules
  • analyse acoustique
  • modélisation du locuteur
  • calcul de score
  • décision

8
Fondements théoriques(principes généraux)
Analyse acoustique ? Coefficients Cepstraux
Deltas Modélisation ? Modèles de Markov
Cachés avec lois démission Multi-Gaussiennes C
alcul de score ? Rapport de Vraisemblance
Normalisation Décision ? Comparaison à un
Seuil (optimisé sur une population de
développement)
9
Fondements théoriques(rapport de vraisemblance)
modèle du locuteur
seuil
score
modèle du non-locuteur
10
De la théorie à la pratique (1)
  • Robustesse aux conditions de prise de son et au
    canal de transmission
  • Soustraction / Normalisation Spectrale
    Cesptrale,
  • Faible volume et mauvaise représentativité des
    données dapprentissage
  • Critère MAP, Apprentissage Discriminant, Modèles
    de Dépendances,
  • Sélection du matériau sonore approprié dans
    lénoncé de test
  • Détection dActivité Vocale, Vérification de
    Qualité, Sélection de Pertinence,

11
De la théorie à la pratique (2)
  • Gestion des problèmes de dérive de la voix au
    cours du temps
  • Adaptation Incrémentale,
  • Résistance à la parole pré-enregistrée, à
    limposture intentionnelle et au masquage
  • Détection de Parole Synthétique, Modèles de
    Cohortes Proches,
  • Gestion du doute
  • Mesures de Confiance, Décision Séquentielle
    Multiple
  • Vérification dInformations Verbales, Re-Routage,
    Service Multi-Niveaux,

12
Evaluation (vérification)
  • Courbe DET
  • Detection Error Trade-off
  • EER
  • Equal Error Rate
  • WER
  • Weighted Error Rate

A
B
C
13
Evaluation (exemple)
Evaluations NIST 2002
  • Conversations spontanées
  • Téléphone mobile
  • 1 session dapprentissage
  • (téléphone fixe)

Variantes de la plate-forme ELISA
14
Performances(ordres de grandeur)
9
Switchboard mobile
6
Banca
Variabilité du contenu linguistique
M2VTS
1
Cave / Picasso
2,5
Variabilité des conditions denregistrement
15
Applications
5 PROFILS 1) Contrôle dAccès Physique 2)
Sécurisation de Transactions à Distance 3)
Organisation de lInformation 4) Jeux,
Jouets 5) Criminalistique et Renseignement
16
Applications (1)
Contrôle dAccès Physique
? Lutilisateur doit être présent en un lieu
précis
Exemples - protection de locaux -  login 
vocal - accès à des valeurs ou des biens
Environnement contrôlable Système
dissuasif Stockage sur carte à puce
MAIS Forte compétition dautres techniques
biométriques
? Intégration à des systèmes multi-modaux
17
Applications (2)
Sécurisation de Transactions à Distance
? La vérification seffectue à distance (télécom)
Exemples - accès à des services télécom -
opérations bancaires au téléphone - commerce
électronique
MAIS Modalité la plus ergonomique dans bien
des cas
Environnement fluctuant Dissuasion
médiocre Centralisation des modèles
  • Forte demande commerciale et existence de
    prototypes
  • DIMINUER la fraude sans offenser les clients
    MONITORING

18
Applications (3)
Organisation de lInformation
? Annotation automatique de documents sonores
Exemples - archivage de documents audio -
sous-titrage automatique - navigation dans les
BD sonores - comptes-rendus automatiques
Contraintes de fonctionnement très
variables Traitements au vol ou en différé Grande
variabilité des connaissances a priori
  • Secteur en plein essor, mais besoins à préciser

19
Applications (4)
Jeux et Jouets
? Interaction vocale ludique
Exemples - jouets pour enfants /
compagnons - consoles de jeux / téléphones
mobiles - jeux sur CD-ROM
Reconnaissance du joueur Imitation / Jeux de
Rôle Détection de lEtat dEsprit
  • Secteur en friche, à explorer

20
Applications (5)
Criminalistique et Renseignement
Exemples - incarcération à domicile -
orientation denquête, recherche de suspects -
 expertise  vocale judiciaire
  • Extrême diversité des conditions dutilisation
  • Absence dévaluation scientifique des procédés
    utilisés
  • motion unanime de représentants des
    scientifiques du domaine de la Communication
    Parlée demandant  larrêt des expertises vocales
    et la mise en place de procédures dévaluation de
    leur fiabilité  
  • Secteur sociétal qui nécessite une extrême
    prudence

21
Conclusions
  • Etat actuel du domaine
  • Fondements théoriques bien maîtrisés
  • Complémentarités technologiques et applicatives
    avec la reconnaissance de parole
  • Bonne acceptabilité par lutilisateur
  • Multiples secteurs dapplication (bien balisés
    ou à développer)
  • Performances  alléchantes 
  • Les efforts doivent porter sur
  • Amélioration de la robustesse (R D)
  • Intégration technologique, ergonomique et
    applicative
Write a Comment
User Comments (0)
About PowerShow.com