Prsentation PowerPoint - PowerPoint PPT Presentation

1 / 18
About This Presentation
Title:

Prsentation PowerPoint

Description:

Ce document ne peut- tre reproduit sans l'autorisation du consortium Infomagic ... Attaque militaire. Un raid a rien. FAIT. Menakro. sur le village de ... – PowerPoint PPT presentation

Number of Views:20
Avg rating:3.0/5.0
Slides: 19
Provided by: igmUn
Category:

less

Transcript and Presenter's Notes

Title: Prsentation PowerPoint


1
WORKSHOP ST2.11 Entités Nommées
10 juin 2008
ARISEM IGM TEMIS XEROX
2
Annotation dEntités Nommées
3
Extraction dInformation (1/2)
  • Linformation daujourdhui sur support
    informatique est
  • massive
  • complexe et hétérogène
  • soumise à des contraintes de temps réel
  • Extraction dInformation (IE) conversion du
    texte en données structurées répondant à des
    questions factuelles
  • QUI A FAIT QUOI A QUI QUAND OÙ COMMENT
  • Applications recherche, indexation, aide à la
    décision, veille, question/réponse, analyse
    sémantique

4
Extraction dInformation (1/2)
  • Un raid aérien a fait au moins 11 morts et 12
    blessés sur le village de Menakro le mardi 12
    février (Le Monde, 2003)

5
Extraction dEntités Nommées
  • La tâche dExtraction dInformation a mis en
    évidence lintérêt de reconnaître les Entités
    Nommées
  • Quest-ce que cest une Entité Nommée (EN) ?
  • tous les éléments du langage qui font référence
    à une entité unique et concrète, appartenant à un
    domaine spécifique (ie. humain, économique,
    géographique, etc.)
  • noms propres au sens classique, noms propres
    dans un sens élargi mais aussi expressions de
    temps et de quantité
  • (MUC-7, Chinchor 1998)

6
Catégorisation dEN (1/2)
  • Catégories EN Exemples
  • Personnes Laurent Gbagbo, Pascal Affi NGuessan
  • Lieux Guinée-Bissau,
  • (expressions spatiales) axe Bouaké-Yamoussoukro
  • Organisations Mouvement patriotique de Côte
    dIvoire, MPCI
  • Faits 25e sommet franco-britannique du Touquet
  • Moyens Boeing 747-300
  • uvres New Press, Le Nouveau Testament
  • Dates Heures le 29 mars 2003, 29/03/2003,
    10h00 GMT
  • (expressions temporelles) depuis jeudi matin
  • Expressions numériques 400 kilomètres, 50
  • Coordonnées 01 56 40 13 72, appels.actu_at_rfi.fr

7
Catégorisation dEN (2/2)
  • Chacune de ces catégories est affinée par un
    ensemble des sous-catégories qui spécifient

8
Annotation dEN
  • Objectif Extraction et annotation fine des EN
    dans un texte
  • Systèmes NER plusieurs approches
  • Symbolique
  • Règles construites à la main ? Lisibilité,
    Évolutivité, Incomplétude
  • Statistique
  • Connaissances acquises automatiquement par
    apprentissage à partir dun corpus annoté à la
    main ? Robustesse, Coût
    dannotation
  • Hybride
  • Symbolique Statistique ? Systèmes préférés

9
Approche symbolique (1/2)
  • A base de grammaires locales écrites à la main
    utilisant des informations morphosyntaxiques et
    sémantiques présentes dans de lexiques généraux
    et spécialisés
  • Lexiques Toponymes, Prénoms, Organisations
  • Infos morpho-syntax-sém NPR, NVille
  • Mots déclencheurs
  • aéroport dAbidjan, Air Ivoire (preuve interne)
  • village de Menakro, Mme Taylor (preuve externe)

10
Approche symbolique (2/2)
  • Exemple de graphe reconnaissant les Noms
    dOrganisations

11
Annotation fine des EN vers une double
annotation
  •  PrésentationDémo_XEROX_100507.ppt 
  • (cf. planches 15-19)
  • À compléter par Takuya

12
Annotation fine des EN utilisation des
Ontologies
  •  PrésentationDémo_ARISEM_100507.ppt 
  • (cf. planches 15-17)
  • À compléter par Takuya

13
Normalisation dEN
  • Expressions Numériques gt Nombres
  • Ex.  100 000 ,  cent mille , etc.
  • Normalisation avec la valeur numérique
  • Dates et Heures
  • Normalisation des dates absolues au format
    ISO8601
  • (ex.  2007-05-10T100000Z ) avec réduction
    en fonction de la précision
  • (ex.  2007-05  pour le mois de mai).
  • Problème pour les dates incomplètes, relatives et
    les expressions temporelles
  • (ex.  le 10 mai ,  en mai ,  entre mai et
    juin 2007 )
  • Autres entités nommées
  • Renseignement des attributs disponibles
  • Ex.  le président Jacques Chirac 
  • Patronyme Chirac, Prénom Jacques, Fonction
    Président
  • Similarité entre entités nommées
  • Influence pondérée de plusieurs facteurs
  • Égalité entre attributs
  • Similarité particulière sur certains attributs
    (ex. Levenshtein, phonétique)

14
Relations entre différentes EN
  • Détection des relations  statiques  ou
     binaires  entre un couple dEN pouvant servir
    à la modélisation des connaissances ainsi quà
    lanalyse du texte
  • Partenariat   HP est partenaire de la Journée
    de lIndustrie 
  • HP? partenaire de ? Journée de lindustrie
  • Filiale   Arisem, filiale du groupe Thales
  • Arisem ? filiale de ? Thales
  • Localisation   Taiwan est une île située au
    sud-est de la Chine
  • Taiwan ? situé en ? Chine
  • Direction   Mickael Boubozka, directeur
    général de Free
  • Mickael Boubozka ? dirige ? Free

15
Problèmes
  • Aujourdhui, toutes les approches offrent des
    taux de reconnaissance (repérage catégorisation
    élémentaire) au dessus de 90. Cependant,
    lattribution des catégories non-ambigües reste
    une tâche assez complexe.
  • Problèmes de catégorisation dus aux phénomènes
    linguistiques
  • polysémie Washington (Lieu VS Personne)
  • homonymie PC (Parti Organisation VS
    Ordinateur Moyen)
  • métonymie La France a signé le traité de Kyoto
    (Lieu VS État)
  • - référents multiples ( facettes sémantiques ,
    selon Cruse 1986, 1995)
  • Arnold Schwarzenegger (acteur/ gouverneur de
    Californie/ bodybuilder)
  • Désambiguïsation tâche essentielle pour
    lextraction dEN

16
Désambiguïsation dEntités Nommées
17
Futurs développements
18
Fusion dannotations
Write a Comment
User Comments (0)
About PowerShow.com