Identification automatique des langues : - PowerPoint PPT Presentation

1 / 20
About This Presentation
Title:

Identification automatique des langues :

Description:

Campagnes d' valuation. Organis es par le National Institute of Standards (NIST) en 1994, ... Des campagnes d' valuation sources de progr s. n 19. 29 novembre 2004 ... – PowerPoint PPT presentation

Number of Views:192
Avg rating:3.0/5.0
Slides: 21
Provided by: Phil288
Category:

less

Transcript and Presenter's Notes

Title: Identification automatique des langues :


1
  • Identification automatique des langues
  • techniques, ressources et évaluations
  • Edouard Geoffrois
  • DGA, Centre technique dArcueil
  • Colloque MIDL
  • 29-30 novembre 2004

2
Plan
  • Introduction
  • Position du problème
  • Techniques
  • Ressources linguistiques (Corpus)
  • Campagnes dévaluation
  • Conclusion et perspectives

3
Introduction
  • Un domaine de recherche relativement récent
  • 1973-1989 14 articles publiés en 16 ans
  • depuis 1990 des dizaines darticles publiés
    chaque année
  • Un problème simple en apparence
  • déterminer la langue parlée par un locuteur
  • Des applications multiples
  • motivées par lessor des communications et des
    échanges internationaux

4
Exemples dapplications
  • Lexemple classique le 911 (appels
    durgence) aux USA
  • Grande diversité des langues utilisées (140)
  • Nécessité dun routage efficace vers lopérateur
    compétent
  • Routage manuel des opérateurs les uns vers les
    autres ? parfois plusieurs minutes de retard
  • Les serveurs vocaux
  • Tourisme
  • Pays multilingues (e.g. en Espagne castillan,
    basque, catalan)
  • Indexation de documents audio multilingues
  • Identification de la langue préalable à la
    reconnaissance

5
Position du problème
  • Signal de parole ? langue parlé par le locuteur
  • Sources dambiguïté
  • Définition du périmètre dune langue (dialectes,
    variantes, régionalismes, idiosyncrasies, verlan,
    créoles)
  • Utilisation de mots étrangers ( week-end 
    scream)
  • Accents non natifs (identification langue
    maternelle ?)
  • Recouvrement entre langues (noms propres,
     taxi , )
  • Réalités applicatives
  • Changements de langue (segmentation et
    identification)
  • Langues inconnues du système (identification ?
    détection)

6
Facteurs de difficultés
  • Langues à reconnaître
  • Nombre
  • Proximité entre langues
  • Durée du signal de test
  • Nature du signal
  • Type de parole (lue, spontanée,
    conversationnelle)
  • Conditions acoustiques (bande passante, bruits)

7
Techniques
  • Système idéal
  • L systèmes de reconnaissance en parallèle
  • Problèmes ressources linguistiques et temps de
    calcul
  • Systèmes classiques (1993-1995)
  • L systèmes simplifiées (phonétiques, ) en
    parallèle
  • Partage du décodage phonétique approche
    phonotactique
  • Utilisation de décodeurs phonétiques multiples
    (PPRLM)
  • Systèmes récents (2003-2004)
  • Fusion dapproches différentes
  • Couplage phonétique-phonotactique par treillis

8
Système idéal
oui elle doux
Système de reconnaissance Langue 1
Scr1
Extraction des paramètres
will du
Module de décision
Système de reconnaissance Langue i
Signal
Langue
Scri
well do
Système de reconnaissance Langue L
ScrL
9
Décodeurs simplifiés (phonétiques)
w i e l d u
Décodeur acoustique n-gramme 1
Scr1
Extraction des paramètres
v i e l d u
Module de décision
Décodeur acoustique n-gramme i
Signal
Langue
Scri
w i l d u
Décodeur acoustique n-gramme L
ScrL
10
Approche phonotactique
Scoring 1
Scr1
v i l d j u
Décodeur acoustique
Scoring i
Signal
Scri
Scoring L
ScrL
11
PPRLM
Signal
12
Améliorations récentes
  • Utilisation de 3 approches différentes
  • PPRLM
  • Mélange de gaussiennes (GMM)
  • Support Vector Machines (SVM)
  • ? Fusion des scores
  • Couplage par treillis
  • Suppression dune approximation dans le couplage
    phonétique phonotactique

13
Corpus disponibles
  • Des corpus sont disponibles auprès du LDC
    (Linguistic Data Consortium)
  • Corpus de parole téléphonique
  • Produit par OGI ou le LDC
  • Tailles variées
  • Autres corpus utilisés
  • MULTEXT (parole lue)
  • Corpus non diffusés ou partiellement diffusés
    (radio/TV)
  • etc

14
Corpus disponibles caractéristiques
15
Corpus disponibles langues couvertes
  • Multext
  • eng, fre, spa, ger, ita
  • CallHome
  • eng, spa, ger, ara, jap, chi/man
  • OGI TS
  • eng, fre, spa, ger, far, tam, vie, chi/man, kor,
    jpn
  • CallFriend
  • 10 ara, hin
  • OGI 22 langues
  • 12 ita, por, pol, hun, cze, rus, swe, swa, may,
    chi/can

16
Campagnes dévaluation
  • Organisées par le National Institute of Standards
    (NIST) en 1994, 1996 et 2003
  • Mode de fonctionnement
  • Métriques et protocoles décidés en lien avec les
    participants
  • Test sur des données nouvelles, sur une période
    commune
  • Séminaire danalyse des résultats

17
Campagne NIST 2003
  • Données et conditions de test
  • téléphonique en 12 langues (principalement
    CallFriend)
  • Mesures
  • Courbes  detection error tradeoff (DET) 
  • Taux dégale erreur (EER)
  • Résultats
  • Six laboratoires participants
  • Meilleure performance EER 2,8 (15xTR)
  • Obtenue par combinaison de 3 approches (cf. plus
    haut)
  • Hors campagne
  • EER 2,7 (0,5xTR)
  • Obtenue par couplage par treillis (cf.
    présentation JL Gauvain)

18
Conclusions
  • Un problématique scientifique riche
  • Des techniques variées, en évolution
  • Des corpus largement disponibles
  • Des campagnes dévaluation sources de progrès

19
Perspectives
  • Améliorations techniques
  • Utilisation du niveau lexical
  • Utilisation de la prosodie
  • De nouvelles problématiques
  • Augmentation du nombre de langues ? pb des
    variantes
  • Changements de langues et reconnaissance
    multilingue
  • De nouvelles campagnes dévaluation ?

20
  • Merci de votre attention !
Write a Comment
User Comments (0)
About PowerShow.com