Minist - PowerPoint PPT Presentation

About This Presentation
Title:

Minist

Description:

Rapport r alis pour le Conseil Sup rieur de la Langue Fran aise remis au Premier ... Articul avec les R seaux de Recherche et d'Innovation Technologiques (RRIT) concern s : ... – PowerPoint PPT presentation

Number of Views:24
Avg rating:3.0/5.0
Slides: 28
Provided by: Chaud5
Category:

less

Transcript and Presenter's Notes

Title: Minist


1
  • Ministère de lEnseignement Supérieur et de la
    Recherche
  • Les principaux résultats du
  • programme Technolangue
  • S. Chaudiron
  • stephane.chaudiron_at_recherche.gouv.fr

2
  • Un rappel du contexte
  • Quelques chiffres
  • Un tour dhorizon des différents projets
  • Une présentation plus détaillée de quelques
    projets

3
Un rappel du contexte
  • Rapport réalisé pour le Conseil Supérieur de la
    Langue Française remis au Premier Ministre en
    Nov. 2000
  • Réunion interministérielle à Matignon en juin
    2001
  • Action confiée au MR
  • Veille technologique et évaluation des outils de
    traitement de la langue française,
  • Programme Technolangue (période 2002-2006).

4
Un rappel du contexte
  • Pourquoi ce programme ?
  • Un manque de ressources pour le français,
  • Une absence de visibilité des ressources
    produites,
  • Un manque doutils dévaluation,
  • Des initiatives intéressantes mais discontinues
    (ARC).

5
Un rappel du contexte
  • Etats-Unis
  • Production / distribution des ressources (LDC)
  • Campagnes dévaluation NIST - DARPA
  • Reconnaissance, transcription, dialogue,
    reconnaissance locuteur
  • Recherche dinformation, compréhension,
    traduction automatique...
  • Europe
  • Divers projets européens (EAGLES, TSNLP)
  • CLEF
  • Francophonie
  • ARC (Réseau Francil de lAUF)
  • France
  • Amaryllis, (plus récemment DEFT)

6
Un rappel du contexte
  • Premier programme spécifiquement dédié aux TL
  • Programme de soutien à linnovation,
  • Couvre à la fois la langue écrite et la langue
    orale,
  • Associant laboratoires publics et industriels,
  • Financé dans un cadre interministériel.
  • Articulé avec les Réseaux de Recherche et
    dInnovation Technologiques (RRIT) concernés
  • RNRT Télécommunications,
  • RNTL Logiciel,
  • RIAM Audiovisuel Multimédia

7
Un rappel du contexte
  • Quatre objectifs
  • Produire et diffuser des ressources linguistiques
    et des ressources logicielles de base,
  • Organiser des campagnes dévaluation
  • Création de référentiels, de corpus de test,
    définition de métriques, implémentation doutils
    de mesure
  • Participer à lélaboration de normes et
    standards,
  • Mettre en place un portail de veille
  • En liaison avec les sociétés savantes (ATALA,
    AFCP) et les organisations professionnelles
    (APIL).

8
Quelques chiffres
  • 52 propositions / 21 projets financés
  • 173 participations, 94 participants
  • 33 sociétés
  • 39 partenaires académiques
  • 11 autres (Associations, CEA, DGA)
  • 11 équipes étrangères (Bell Labs, NII, EPFL,
    LATL, RALI)
  • Budget global 20 M - financement 7,5 M

9
Quelques chiffres
  • Ventilation par objectif
  • Création de ressources 10 projets
  • Campagnes dévaluation 8 projets (5 pour
    lécrit et 3 pour loral)
  • Normalisation et standardisation 2 projets
  • Veille dans le domaine des TL 1 projet

10
Les résultats (Ressources)
  • Création de ressources linguistiques et doutils
    de base
  • TILT un corpus balisé XML denviron 1000 textes
    FR/EN alignés dans le domaine des normes,
  • ALIZÉ une  boîte à outils  libre pour la
    reconnaissance de la parole,
  • CARMEL corpus multilingue aligné (récits de
    voyage) EN, FR, SP, IT (10 M de mots) outils de
    manipulation,

11
Les résultats (Ressources)
  • OURAL un ensemble de lexiques et de corpus
    diffusés sous licence GNU, différents outils de
    filtrage dinformations et dextraction de
    concepts
  • WATSON modules logiciels tels que outils de
    balisage, étiqueteurs morpho et syntaxique,
    extraction, catégorisation
  • NEOLOGOS deux bases de données parole (37 000
    enregistrements de voix denfants et près de 100
    000 pour des voix dadultes, enregistées sur le
    réseau téléphonique),

12
Les résultats (Ressources)
  • ATONANT une boîte à outils pour aider la
    création de ressources sémantiques (ontologies) à
    partir de laspiration de pages web,
  • NOMS PROPRES une base de données de 53 000 noms
    propres (Prolexbase),
  • LEXITEC un ensemble de dictionnaires bilingues
    spécialisés (aérospatial, affaires, automobile)

13
Les résultats (Ressources)
  • EURADIC
  • Dictionnaires monolingues (FR, GE, EN, SP IT.) et
    bilingues de la langue générale (FR-DE, FR-EN,
    FR-SP, FR-IT et FR-AR), 90 000 entrées au minimum
    pour la langue générale,
  • Base de données terminologiques (AR, FR, EN, DE,
    SP, GR),
  • Corpus monolingue AR (105 000 mots voyellés et
    étiquetés) et bilingue FR/AR (Le Monde
    Diplomatique).

14
Les résultats (Evaluation)
  • EVALDA 8 campagnes dévaluation
  • 5 sur le traitement de la langue écrite
  • ARCADE 2 outils dalignement (mots et phrases),
  • CESART systèmes dacquisition de ressources
    terminologiques,
  • CESTA traduction automatique,
  • EASy analyseurs syntaxiques,
  • EQueR systèmes Questions/Réponses.

15
Les résultats (Evaluation)
  • ARCADE 2
  • 2 tâches alignement au niveau des mots et de la
    phrase
  • Avec une sous-tâche concernant lidentification
    et lalignement des entités nommées en français
    et en arabe.
  • CESART systèmes dacquisition de ressources
    terminologiques
  • Tâche dextraction de termes (comparaison avec
    des thesaurus existants)
  • Tâche dextraction de relations sémantiques (la
    synonymie et comparaison avec les liens indiqués
    dans le thésaurus).

16
Les résultats (Evaluation)
  • CESTA
  • 2 campagnes en TA,
  • EN et AR comme langues sources et FR comme langue
    cible,
  • Expérimentation de nouvelles métriques.
  • EaSY
  • Concevoir et tester une méthodologie pour
    comparer des analyseurs syntaxiques du français,
  • Produire de nouvelles ressources.

17
Les résultats (Evaluation)
  • EQUER
  • Définir un cadre dévaluation pour les systèmes
    de Questions/Réponses,
  • Deux tâches de recherche articles de presse et
    domaine de la médecine.

18
Les résultats (Evaluation)
  • EVALDA 8 campagnes dévaluation
  • 3 sur le traitement de la parole
  • ESTER systèmes de transcription de la parole
    (informations), incluant la reconnaissance du
    locuteur,
  • EVASY systèmes de synthèse de la parole (TTS),
  • MEDIA systèmes de dialogue oral.

19
Les résultats (Evaluation)
  • ESTER systèmes de transcription démissions
    radiophoniques
  • 3 types de tâches la transcription
    orthographique, la segmentation et lextraction
    dinformations.
  • EVASY systèmes de synthèse de la parole à
    partir de textes (TTS)
  • 4 types dévaluation la qualité de la
    conversion graphème-phonème, la conversion des
    noms propres, un test dintelligibilité, la
    mesure de la qualité globale de la parole.

20
Les résultats (Evaluation)
  • MEDIA systèmes de dialogue oral homme-machine
  • Contexte de demande de renseignements,
  • Tâches en contexte et hors contexte de dialogue,
  • Évaluation de la représentation sémantique.

21
Les résultats (Evaluation)
  • Ressources produites
  • Plusieurs centaines de MO de corpus de tests pour
    toutes les campagnes (corpus balisés, étiquetés,
    annotés)
  • Les référentiels, les métriques, les protocoles
  • Les outils (par ex dannotation des corpus, les
    logiciels de mesure des métriques
  • Toutes les ressources créées pour les 8 campagnes
    dévaluation seront diffusées par ELDA.

22
Les résultats (Normes)
  • RNIL aider les industriels à participer au
    comité ISO TC37 SC4 sur la description des
    ressources linguistiques.
  • TECHNOVOX même objectif pour le domaine de la
    parole (W3C, Forum SALT).

23
Les résultats (Veille)
  • Portail www.technolangue.net
  • Création dun portail dédié aux technologies de
    la langue
  • Diffusion dinformations études de marché,
    exemples dapplications, entretiens avec des
    experts, répertoires

24
Conclusion
  • Objectifs atteints ?
  • De nombreuses ressources ont été produites et
    sont disponibles (notamment les ressources créées
    pour lévaluation),
  • Un cadre juridique négocié,
  • Des prix acceptables pour la communauté
    scientifique,
  • Malgré des modèles économiques différents,
  • Et certaines réticences à diffuser les résultats.
  • Un risque majeur la discontinuité des efforts

25
Conclusion
  • Pour plus dinformations
  • www.technolangue.net
  • actes de LREC06
  • liens vers les différent sites Web des projets
  • ouvrage en préparation sur tous les résultats
    Evalda (parution fin 2007).

26
Conclusion
  • Présentation détaillée de quelques projets
  • Néologos, Arnaud Vallée (Télisma)
  • Oural, Philippe Laval (Sinequa)
  • Watson, José Coch (Lingway)
  • CESTA, AndreI Popescu-Belis (ISSCO)
  • EQUER, Brigitte Grau (LIMSI)
  • ESTER, Guillaume Gravier (AFCP)
  • RNIL, Eric de la Clergerie (INRIA)

27
  • Merci de votre attention
Write a Comment
User Comments (0)
About PowerShow.com