Analyse syntaxique profonde sur corpus - PowerPoint PPT Presentation

About This Presentation
Title:

Analyse syntaxique profonde sur corpus

Description:

Utilisation de l'informatique pour apporter un clairage nouveau sur l' tude de ... Admettons que l'ambiguit puisse tre r solue par des heuristiques de ... – PowerPoint PPT presentation

Number of Views:477
Avg rating:3.0/5.0
Slides: 56
Provided by: alpage
Category:

less

Transcript and Presenter's Notes

Title: Analyse syntaxique profonde sur corpus


1
Analyse syntaxique profonde sur corpus
  •  Alpage à Barcelone 2007 
  • Benoit Crabbé

2
Plan de lexposé 
  • Motivations et objectifs de recherche
  • Motivations générales
  • Inadéquation des grammaires symboliques pour
    lanalyse de corpus et préférence aux modèles
    statistiques
  • Analyse syntaxique statistique du Français
  • Algorithmes danalyse
  • Développement de grammaire sur le FTB
  • Premiers résultats
  • Perspectives
  • Collaborations et Intégration dans ALPAGE

3
Motivations générales
  • Spécificité dans ALPAGE ?
  • Linguiste
  • Idéologie  Computational linguistics 
  • Utilisation de linformatique pour apporter un
    éclairage nouveau sur létude de la langue
    française
  • En retour volonté dexprimer une théorie
    formalisée  computer friendly  du Français
  • Question générale
  • Que tirer comme généralités de la linguistique de
    corpus ?
  • Volonté de (contribuer à) formuler une grammaire
    du français informée explicitement par les
    données empiriques (stats)
  • Inspiration type Claire Blanche-Benveniste
    (GARS)
  • (Variationnisme) Contrastes de différents
    registres de langage
  • oral vs écrit
  • Confronter théorie introspective vs approche
    empirique

4
Besoin premier Données structurées
  • Produire un observatoire sur la langue
  • Française en particulier
  • Produire des ressources
  • Corpus annotés en syntaxe
  • Différents genres (oral/écrit)
  • Produire les moyens de les exploiter
  • Méthode qualitative (concordances)
  • Méthodes quantitatives (stats)
  • Nexiste à peu près pas pour le français
  • Et pas en syntaxe

5
Quels types de données ?
  • Corpus annotés et corrigés suivant une grammaire
    explicite
  • Au moins constituants et fonctions
  • Bonnes propriétés informatiques
  • Bonne expressivité linguistique
  • La partie essentielle dans lannotation dun
    corpus cest la conception des guides
    dannotation ( de la grammaire)
  • Explicitation de la théorie
  • Revient à décrire explicitement une grammaire
    de performance (!)
  • Conséquence favorise la cohérence de
    lannotation
  • Pour le Français on pourrait sinspirer de la
    GGF et du FTB

6
Plan de lexposé 
  • Motivations et objectifs de recherche
  • Motivations générales
  • Inadéquation des grammaires symboliques pour
    lanalyse de corpus et préférence aux modèles
    statistiques
  • Analyse syntaxique statistique du Français
  • Algorithmes danalyse
  • Développement de grammaire sur le FTB
  • Premiers résultats
  • Perspectives
  • Collaborations et Intégration dans ALPAGE

7
Problèmes du parsing symbolique pour lanalyse de
corpus
  • Trois problèmes de lanalyse symbolique
  • Ambiguité
  • Non Robustesse
  • Ouverture des données
  • Admettons que lambiguité puisse être résolue par
    des heuristiques de préférences (ex. Frazier
    Fodor 78)
  • La non robustesse est fondamentale
  • Distinction grammatical non-grammatical
  • ex. Accord (Point fort de TAG)
  • En théorie La fille que le gars qui est venu
    hier a estimé que Pierre imagine que le frère de
    Julie pense que le garçon a aperçue
  • En corpus Le professeur de français que le
    frère de Paul a vue hier sen est allée. Mais
    cétait bien une femme !

8
Propriété formelle dun corpus loi de Zipf
  • Les objets dun corpus sont en distribution de
    Zipf
  • Les mots
  • Les règles de grammaire
  • La distribution pour le LN est une distribution
    de rang/fréquence, pour chaque mot
  • Rang (r) fonction du Nbre doccurrences du mot
  • (ordre décroissant)
  • Fréquence f(r) Nbre de doccurrences du mot de
    rang
  • Loi de Zipf (version intuitive)
  • Conséquences
  • Très peu de mots très fréquents
  • Très grand nombre de mots de basse fréquence

9
Loi de Zipf
Distribution Rang/Fréquence dune PCFG extraite
du FTB (treebank3)
10
Conséquences
  • Lanalyse automatique de la langue naturelle à
    large couverture demande de gérer le mieux
    possible les objets inconnus
  • Méthodes de lissage en Stats
  • Méthodes de prétraitement en analyse symbolique
  • Problème grammaire symbolique pour anal. corpus
  • Env. 2/3 des règles napparaissent que 1 ou 2
    fois
  • Ecrire une grammaire exhaustive est
    inenvisageable
  • Demande décrire  indéfiniment  des règles
    aussi générales que les autres pour un nombre
    infini de cas rarissimes
  • --gt Crée ambiguité
  • Nécessité de distinguer le vraiment général du
    rarissime
  • Idem pour les lexiques

11
La grammaire sur corpus
  • Annoter écrire une grammaire
  • Avantage sur la méthode symbolique
  • Les cas rares sont associés à lexemple annoté
  • Induction dune grammaire de treebank
  • Probabilités associées aux règles
  • Surgénéralisation -gt robustesse
  • Robustesse intéressante
  • Produit généralement des arbres complets
  • Facilite le calcul sémantique (ex. RMRS)

12
Plan de lexposé 
  • Motivations et objectifs de recherche
  • Motivations générales
  • Inadéquation des grammaires symboliques pour
    lanalyse de corpus et préférence aux modèles
    statistiques
  • Analyse syntaxique statistique du Français
  • Algorithmes danalyse
  • Développement de grammaire sur le FTB
  • Premiers résultats
  • Perspectives
  • Collaborations et Intégration dans ALPAGE

13
Paradigmes danalyse syntaxique
  • Paradigme génératif
  • Modèles bayésiens de type PCFG
  •  La grammaire engendre une chaine de surface 
  • Paradigme discriminatif
  • Modèles de type Maximum dentropie et CRF
  •  Etant donnée une chaine de surface et
    lensemble des analyses possibles, lapplication
    dun ensemble de contraintes ordonne les modèles
    pour garder le meilleur 
  • Modèles mixtes
  • Génératif rapide mais expressivité réduite
  • Discriminatif expressif mais lent
  • gt Mixte reranking (Charniak 05, Collins 06)
  • (1) Générer un sous-ensemble des solutions
  • (2) Appliquer des contraintes pour les ordonner
    entre elles
  • Machine learning
  • Arbres de décision (Magerman 94) SSN (Henderson
    Titov 03)

14
Paradigme génératif
  • Modèles non lexicalisés
  • Vanilla PCFG
  • BitPar (CKY all paths)
  • Algos de Johnson (CKY Best First, 90s)
  • Problème formel de PCFG
  • Hypothèse dindépendance conditionnelle est trop
    forte
  • gt Réintroduire des dépendances conditionnelles
  • Parent Transformation (Johnson 99)
  • Accurate Unlexicalised Parsing (Klein and
    Manning 2003)
  • Berkeley Parser Algorithme de Petrov
    (2006-2007)
  • Modèles lexicalisés (Collins 96-99, Bikel 2004-5,
    Charniak 2000-5)
  • Problème de PCFG pour la langue nat
  • Interaction avec le lexique
  • Idée combiner un modèle de langage en
    dépendances lexicales avec un modèle de langage
    en constituants
  • Problème à addresser dispersion des données

15
PCFG
  • Modèle de langage
  • CFG dont chaque règle A --gt ? est associée à
    une probabilité telle que
  • Une PCFG définit une distribution de probabilité
    sur lensemble des arbres finis générés par la
    grammaire. Telle que la probabilité dun arbre
    (t)
  • Autrement dit, on calcule la probabilité
    conjointe dengendrer cet arbre en posant une
    hypothèse dindépendance conditionnelle entre les
    instances de règles qui interviennent pour
    dériver cet arbre

16
Modèles non lexicalisés 1 le split
  • SPLIT
  • Problème PCFG conditions dindépendance trop
    fortes
  •  Coup de codage  (lt HMM Trigrammes)
  • Ex. Parent annotation (Johnson 1998)
  • gt Transformation (réversible) du Treebank
  • Idée
  • Un NPS est un sujet, un NPVP est un objet
  • Un NP sujet est structurellement différent dun
    NP Objet
  • NP suj. plus court (pronom ou NP défini) quun
    NP objet

gt
17
Modèles non lexicalisés 2 le merge
  • MERGE
  • Problème du split
  • Spécialise trop les règles -gt éparpillement des
    données
  • Idée du MERGE lissage
  • Ex. Markovisation des règles (Klein,Manning
    2003)
  • Mise en CNF dégénérée (// hyp. simplif. HMM)

Base
CNF Markov(2)
Markov(1)
Markov(0)
18
Modèles non lexicalisés 3 split/merge
  • Algorithme de Berkeley (Petrov/Klein 06-07)
  • Split/merge sur les catégories de la grammaire
  • Markovisation dordre k
  • Utilise EM (lt Dedans-Dehors lt Baum Welch HMM)
  • Convergence non garantie !
  • Remarque 1
  • Lalgorithme apprend tout seul à reconnaître des
    types de constituants potentiellement
    intéressants
  • Grammaires des unités monétaires
  • Remarque 2
  • Algorithme qui repose uniquement s/ propriétés
    formelles et de lapprentissage
  • gt multilingue

19
Architecture du processus
Entrainement
Transfo
Estimation
Treebank
Treebank
Grammaire
Analyse
Parsing
Transfo-1
Raw Text
Treebank
Treebank
20
Modèles lexicalisés
  • Collins 96-99 (Bikel 2004)/ Charniak 97
  • Intuition
  • Combiner à la fois modèle PCFG et dépendances
    lexicales
  • Trois Modèles de langage
  • Modèle 1 Head Driven
  • Modèle 2 Sous-cat (non illustré dans le talk)
  • Modèle 3 Dépendances à longue distance (non
    illustré)
  • Un algorithme de Lissage
  • Modèle de Repli (Backoff,non illustré)
  • Modèle de lissage lexical basique (suffixes
    prédéfinis, non illustré)

21
Lexicalisation motivations
  • Besoin dinformations lexicales !
  • Sous-catégorisation
  • Coordination (scope)
  • Exemple, PCFG décide arbitrairement

?
22
Lexicalisation Annotation
  • Annote les têtes (Unité Lexicale catégorie)
  • Annotation semi-automatique par transduction sur
    la grammaire (Magerman 95)
  • Problème données beaucoup trop dispersées,
    demande destimer des probabilités pour des
    règles du type
  • VPltlance,Vgt --gt Vltlance,Vgt NPltbille,Ngt
  • càd
  • P(Vltlance,Vgt, NPltbille,Ngt VPltlance,V)

gt
23
Modèle 1 (Lecture algorithmique)
  • Pseudo-Markovisation
  • Hypothèse dindépendance
  • Un élément de la règle dépend uniquement de la
    tête et de LHS
  • Exemple
  • VPltlance,Vgt --gt STOP Vltlance,Vgt NPltbille,Ngt
    STOP
  • Vue dune règle de grammaire
  • Génération de la tête P(HLHS) P (Vltlance,Vgt
    VPltlance,Vgt)
  • Génération de la partie gauche P(Li H, LHS)
  • Génération de la partie droite P(Ri H, LHS)

24
Modèle 1 (Lecture probabiliste)
  • Soit
  • On a le modèle suivant (modèle 1)
  • Complications supplémentaires
  • Ajout dun paramètre de distance par rapport à la
    tête
  • (Modèle 2) Ajout dun paramètre cadre de
    sous-cat pour les verbes

gauche
droite
tête
25
Vision harissienne
  • Empruntée à (Pereira 00)
  • Z. Harris 91 propose informellement une
    grammaire de dépendances basée sur la théorie de
    linformation (Collins limplante largement)
  • Sélection lexico-sémantique (ex. traduits)
  • Lenfant dort Les oiseaux dorment peu la
    ville dort les arbres dorment en hiver le
    soleil dort
  • COURANT ltltgtgt INATTENDU
  • Digression (Corrélation probabilité /
    grammaticalité peu claire)
  • Chomsky 56 argument prosodique (Pereira 00
    prob)
  • les idées vertes incolores dorment furieusement
    (Proba haute)
  • furieusement vertes dorment idées les incolores
    (Proba basse)

26
Plan de lexposé 
  • Motivations et objectifs de recherche
  • Motivations générales
  • Inadéquation des grammaires symboliques pour
    lanalyse de corpus et préférence aux modèles
    statistiques
  • Analyse syntaxique statistique du Français
  • Algorithmes danalyse
  • Développement de grammaire sur le FTB
  • Premiers résultats
  • Perspectives
  • Collaborations et Intégration dans ALPAGE

27
Grammaire du français
  • But privilégié à long terme
  • Syntaxe sur corpus
  • Données quantitatives sur la syntaxe du français
  • Contraste entre grammaire de loral et grammaire
    de lécrit à partir de corpus annotés en syntaxe
  • But à court/moyen terme
  • Produire les annotations
  • Outil privilégié
  • Parser statistique
  • Moyen envisagé
  • Augmentation du French Treebank
  • Ecrit et Oral (ESTER2)

28
Analyse du français
  • Utilisation du French Treebank
  • Version très récente
  • Ré-annotation des composants internes de mots
    composés
  • Fonctions syntaxiques (dépendants verbaux)
  • Spécificités (vs PTB)
  • Annote les mots composés
  • Morphologie
  • Lemmes
  • Cat et sous-cat

29
FTB Exemple
  • ltSENT nb"453"gt
  • ltw cat"ADV" ee"ADV" ei"ADV"
    lemma"pourtant"gt Pourtant lt/wgt
  • ltw cat"PONCT" ee"PONCT-W" ei"PONCTW"
    lemma"," subcat"W"gt , lt/wgt
  • ltw cat"ADV" ee"ADV" ei"ADV"
    lemma"globalement"gt globalement lt/wgt
  • ltw cat"PONCT" ee"PONCT-W" ei"PONCTW"
    lemma"," subcat"W"gt , lt/wgt
  • ltNP fct"SUJ"gt
  • ltw cat"D" ee"D-def-fs" ei"Dfs"
    lemma"le" mph"fs" subcat"def"gt l lt/wgt
  • ltw cat"N" ee"N-C-fs" ei"NCfs"
    lemma"économie" mph"fs" subcat"C"gt économie
    lt/wgt
  • lt/NPgt
  • ltVNgt
  • ltw cat"ADV" ee"ADV-neg" ei"ADV"
    lemma"ne" subcat"neg"gt n lt/wgt
  • ltw cat"V" ee"V--P3s" ei"VP3s"
    lemma"être" mph"P3s" subcat""gt est lt/wgt
  • lt/VNgt
  • ltw cat"ADV" ee"ADV-neg" ei"ADV"
    lemma"pas" subcat"neg"gt pas lt/wgt
  • ltAP fct"ATS"gt
  • ltw cat"A" ee"A-qual-fs" ei"Afs"
    lemma"apathique" mph"fs" subcat"qual"gt
    apathique lt/wgt
  • lt/APgt
  • ltw cat"PONCT" ee"PONCT-S" ei"PONCTS"
    lemma"." subcat"S"gt . lt/wgt
  • lt/SENTgt

30
Fiche signalétique du FTB
  • Token counts 385458
  • Type counts 24098
  • Tag token counts 385458
  • Non Tag Symbol token counts 242551
  • Function token counts 65055
  • Sentence counts 12351
  • Compound tokens 55950 (14.52)

31
Stats brutes diverses
Symboles
Tags
Fonctions
PCFG
88702 NP 48883 PP 28298 VN 13687 AP 12351
SENT 9286 N 8813 COORD 7024 VPinf 4929
VPpart 3636 Srel 3576 ADV 3298 P 3287
Ssub 2395 D 1682 Sint 778 C 732
AdP 500 V 352 A 307 PRO 28 ET 5
CL 2 I
96372 N 66102 D 62965 P 50481 PONCT 39841
V 26385 A 15662 ADV 11320 C 8433
CL 6116 PRO 1502 ET 235 PREF 44 I
  • 20756 MOD
  • 19056 SUJ
  • 15162 OBJ
  • 3320 ATS
  • 2253 A-OBJ
  • 2192 DE-OBJ
  • 1469 P-OBJ
  • 272 obj
  • 245 ATO
  • 124 SUJ/OBJ
  • 64 SUJ/A-OBJ
  • 45 Aobj
  • 32 SUJ/DE-OBJ
  • 27 DEobj
  • 9 OBJ/A-OBJ
  • 8 SUJ/MOD
  • 6 SUJ/ATS
  • 5 SUJ/P-OBJ
  • 2 DE-OBJ/OBJ
  • 45420 PP --gt P NP
  • 22828 NP --gt D N
  • 14788 VN --gt V
  • 13825 NP --gt N
  • 11674 NP --gt D N PP
  • 10673 AP --gt A
  • 4535 NP --gt D N AP
  • 4528 VN --gt CL V
  • 4204 NP --gt PRO
  • 3340 VN --gt V V
  • 2972 N --gt N A
  • COORD --gt C NP

32
Construction de loutil dannotation
  • Analyseur syntaxique dérivé du French Treebank
    comme outil dannotation
  • Buts de loutil dannotation
  • Doit être aussi correct ? (angl. accurate) que
    possible
  • gt peu dintérêt pour les questions defficacité
  • Sorties aussi riches que les données
    dentraînement
  • gt But non standard en stat parsing
  • Categories (sous-cats)
  • Morphologie lemmes
  • Mots composés (originalité du FTB 14 des
    tokens !)
  • Fonctions syntaxiques
  • En cours deux étapes
  • Analyse en constituants
  • Analyse en fonctions syntaxiques (prospectif)
  • Corollaire proposer des améliorations à la
    grammaire existante

33
Cinq expériences
  • Génération de treebanks opérationnels à partir du
    FTB
  • Treebank 1
  • Baseline
  • Treebank 2
  • But interface avec analyseur morphologique
  • Variante Treebank2 (mots composés)
  • Treebank 3 (en cours)
  • But maximiser la correction de la grammaire
    induite
  • Variante Treebank3 (mots composés)
  • Treebank 4 (prospectif)
  • But maximiser la correction de la grammaire
    induite
  • Variante prévue Treebank4 (mots composés)
  • Treebank 5 (prospectif, non illustré dans le
    talk)
  • But extraction de fonctions syntaxiques
  • Variante prévue Treebank5 (mots composés)

34
TreeBank 1
  • But
  • Fournit une baseline indicative
  • Contenu
  • Utilise uniquement les catégories majeures
  • Mots composés sont ignorés (Catégories des
    composés ont même statut que les autres)
  • Fusion des traces
  • Ex du/P -None-/D --gt du/PD
  • Fusion des nombres en chiffres arabes 19 000 ,
    8 --gt 19000,8
  • Exemple

35
Treebank 2
  • But
  • Produire un jeu de tags interfacé avec un
    analyseur morpho (ex. FLEMM)
  • Contenu Treebank 1
  • Ajout des infos du trait subcat morphologie sur
    les Terminaux
  • Enrichissement artificiel des annotations de mots
    composés (traits de souscat non annotés) pour
    éviter les biais
  • Variante (Treebank2)
  • Fusion des mots composés 1 seul Token

36
Treebank 2
  • Jeu de tags compatible avec FLEMM-TT
  • gtgt Inférence de morphologie
  • gtgt Many to one mapping sur FLEMM-TT

67354 NC 49341 DET 46337 PONCT 40623 P 20950 ADJ 10941 NPRP 10372 VP3SG 10337 VPP 9738 PD 8839 ADV 7612 CC 7059 VINF 4153 CLS 4081 VP3PL 3918 ADVNEG 3544 PROREL 2630 CS 2424 CLR 2018 VIPF 2011 PRO 1506 CLO 1407 VPR 1354 VF 1027 VC 360 VSP 311 VP 234 PREF 225 VPAST 196 ET 82 PROWH 58 PPRO 44 VIMP 43 I 28 DETWH 9 VSIPF
37
Treebank 3
  • But
  • Améliorer la correction de lanalyse
  • Contenu
  • Modifications des catégories non terminales
    (heuristiques)
  • Se rappeler de la parent transfo de Johnson !
  • 1) Enrichissement du jeu de tags de traits
    MODE,WH, REL
  • 2) Propagation des traits dans les arbres
  • //grammaires symboliques

38
Treebank 4 (Prospectif)
  • But
  • Améliorer la correction de lanalyse
  • Contenu Modifications structurelles des arbres
  • Identifier un/des constituants S clairs (vs
    SENT)
  • Introduction dun niveau SBAR vs S
  • Introduction dun trait INV (inversion)
  • Mise en évidence des structures à extraction (WH,
    REL)
  • Mise en évidence des complémenteurs
  • Gérer la coordination
  • à voir
  • Normalisation de la ponctuation
  • Cause déparpillement des données
  • Idée générale remonter la ponctuation
  • Ponctuation  parenthétique  descendue au
    niveau du constituant parenthésé si possible
  • Traiter le comme une CS
  • Problème
  • Difficile de garantir la correction automatisée
    des modifications
  • Suggère des extensions/modifs du schéma
    dannotation

39
Plan de lexposé 
  • Motivations et objectifs de recherche
  • Motivations générales
  • Inadéquation des grammaires symboliques pour
    lanalyse de corpus et préférence aux modèles
    statistiques
  • Analyse syntaxique statistique du Français
  • Algorithmes danalyse
  • Développement de grammaire sur le FTB
  • Premiers résultats
  • Perspectives
  • Collaborations et Intégration dans ALPAGE

40
Evaluations I
  • But
  • Décider quel algorithme danalyse est le mieux
    adapté pour parser le français (Charniak ignoré,
    trop spécifique au PTB)
  • Protocole
  • Concertation avec S. Petrov
  • Vieux Treebank dEdinburgh (composés fusionnés)
  • 80 entrainment 10 dev 10 test
  • Unlexicalised Parsing
  • Berkeley parser sans modifications
  • Tagging accurracy bug lt schéma dannotation
  • Parsing Labelled F1-Score bug lt schéma
    dannotation
  • Parsing coverage bug lt schéma dannotation
  • Lexicalised Parsing
  • Bikel (Collins emulation, Abishek Arun Edinburgh)
  • Tagging accurracy 95.20 (Tagger TNT)
  • Parsing Labelled F1-Score 79.13
  • Parsing coverage 99.97

41
Evaluations II
  • But
  • Comparer différents schémas dannotation
  • Protocole
  • French Treebank récent
  • 80 entrainement 10 dev 10 test
  • Berkeley parser évaluation par evalb avec
    paramètres Collins
  • Expériences
  • Treebank 1
  • Tagging accurracy 97.84
  • Parsing Labelled F1-Score 82.16
  • Parsing coverage 100
  • Treebank 2
  • Tagging accurracy 91.49
  • Parsing Labelled F1-Score 82.43
  • Parsing coverage 99.9
  • Treebank2
  • Tagging accurracy 96.40
  • Parsing Labelled F1-Score 83.57
  • Parsing coverage 99.9

42
Commentaires
  • On choisit lanalyseur de Berkeley
  • Hypothèse Bikel biaisé par des heuristiques
    X-BAR type PTB. FTB ne suit pas X-BAR.--gt suggère
    modif. sérieuses de lalgo Bikel pour le
    Français
  • Mise en place dun Vanilla PCFG TNT LNCKY
    de Johnson
  • Avec Treebank3, on obtient F 84.23 meilleur
    résultat en constituants obtenu à ce jour pour le
    français
  • Edinburgh-fr F 79.13 Dublin-mft F 83.5
  • Avec Treebank 1 on obtient les meilleurs
    résultats en tagging ?
  • Comparaison avec autres langues
  • Anglais F 90.6 (Charniak 05 92.0)
  • Allemand F 80.75 (Berkeley)
  • Chinois F 86.3 (Berkeley)
  • Espagnol F 85.1 (Collins 05)
  • Italien F 68.49 (Corazza 04 , mini treebank
    de 1500 phrases)

43
Améliorations envisagées
  • Il y a encore pas mal de marge pour améliorer
  • gtgt Thématique de recherche (Mots composés) On
    voit que les mots composés sont mal gérés
    (Treebank2 vs 2)
  • Suggère une stratégie en pipeline avec dico
    apprentissage endogène à la Bourigault
  • Suggère une stratégie originale en pipeline
    inversé augmentation de lannotation du FTB
    (subcat) pour les mots composés. Parsing dabord
    avec détection des mots composés à postériori.
  • Expériences à venir avec Treebank 4 et 5
  • Error mining
  • Meilleur modèle de langage pour estimer les mots
    inconnus
  • Réutilisation de lalgo de Brants /Samuelsson
    (TNT)

44
Remarque choix des transformations
  • Comment trouver les bonnes transformations ?
  • Deux aspects
  • Théorie linguistique sert de guide
  • Théorie de linformation aussi
  • Faire baisser lentropie croisée de la grammaire
  • Mais pas le F-Score
  • Dépendant dun algorithme
  • Synthèse
  • En modifiant le Treebank, on fait  tourner un EM
    à la main  en cherchant à converger vers le
    modèle dentropie minimale (en fait lentropie
    croisée pour des raisons techniques)

45
Remarque implémentation
  • Travail dimplantation sous-jacent
  • Architecture ciblée pipeline UNIX
  • Python lib NLTK
  • Format de travail PTB/Brown
  • Permet la réutilisation doutils de la
    communauté
  • Parsers (Berkeley, Johnson), evalb, tgrep2, etc.
  • Taggers Brill/MXPOST
  • Segmenteur MXTERMINATOR
  • Format IMS
  • IMS CWB, TNT, TreeTagger
  • Commandes ciblées
  • convert ( recode)
  • tsed ( sed)
  • tdiff ( diff)
  • tgrep ( grep)
  • twc ( wc)
  • treeviewer
  • Analyse de données R

46
Screenshot
47
Plan de lexposé 
  • Motivations et objectifs de recherche
  • Motivations générales
  • Inadéquation des grammaires symboliques pour
    lanalyse de corpus et préférence aux modèles
    statistiques
  • Analyse syntaxique statistique du Français
  • Algorithmes danalyse
  • Développement de grammaire sur le FTB
  • Premiers résultats
  • Perspectives
  • Collaborations et Intégration dans ALPAGE

48
Perspective Analyse fonctionnelle
  • Tâche connue
  • Functional Role Labelling
  • Intérêt
  • Comparaison avec létat de lart français
    (Syntex/PASSAGE)
  • Annotation en fonctions de surface
  • Pas très utile pour le TAL (--gt dépendances
    sémantiques)
  • Jeu de fonctions envisagé
  • Jeu de RASP ( GDE de Caroll et. Al.)
  • Plus fin que Passage et FTB, possible de le
    dégrader pour comparaisons
  • Annotation
  • Relationnelle ou sur constituants ?
  • gt les deux mais préférence pour annotation sur
    constituants

49
Techniquement
  • Deux options
  • Approche intégrée
  • Le parser annote directement en fonctions
  • Usage de catégories complexes
  • Problème attendu éparpillement des données
  • Approche en pipeline
  • Le parser annote uniquement en constituants
  • Tagger fonctionnel en seconde passe

50
Pipeline
  • Pipeline
  • Tagger Fonctionnel
  • Stat
  • (voir Blaheta et Charniak, Merlo et Henderson)
  • (Proposition) symbolique
  • Adapter lalgo dannotation de Collins à des fins
    dannotation fonctionnelle
  • Identifier têtes (Magerman 95)
  • Identifier arguments
  • Extraire relations (n-tuples avec n 3 or 4),
    exemple
  • Jean demande à Marie de partir à quatre heures
  • (sujet, Jean, demander)
  • (objet, à, Marie, demander)
  • (xcomp,de,partir,demander)
  • (sujet,Marie,partir)
    //optionnel dans un premier temps
  • (mod,à,heures,partir) //
    dépend de la désambig.

51
Exemple
S gt NPSUJ VNH NPOBJ NP gt D ADJ NH NP
gt D NH
Annotation constituants (Tête/arg)
Source
(sujet, garçon,lance) (objet,balle,lance)
Extraction de tuples
Propagation
52
Plan de lexposé 
  • Motivations et objectifs de recherche
  • Motivations générales
  • Inadéquation des grammaires symboliques pour
    lanalyse de corpus et préférence aux modèles
    statistiques
  • Analyse syntaxique statistique du Français
  • Algorithmes danalyse
  • Développement de grammaire sur le FTB
  • Premiers résultats
  • Perspectives
  • Collaborations et Intégration dans ALPAGE

53
Sujets de recherche
  • Vital
  • Mots composés et expressions multi-mots
    (traitement algo)
  • Capital pour lanalyse du Français
  • (Bcp Prépositions Conj sub composés)
  • Bonus
  • Ajout dun tagger sémantique
  • Sémantique lexicale (voir Gildea-Palmer cie)
  • Sémantique formelle (voir Bos, Clark, Curran
    cie)
  • Sortent des (U-)DRS
  • Discours et Anaphores
  • Résolution danaphores
  • Relations de discours
  • Super Bonus
  • Algo danalyse syntaxique stat
  • (ATOLL)
  • Dériver des treebanks pour dautres cadres
  • E.g. grammaires de dépendances

54
Collaborations
  • Collaborations envisageables
  • Abeillé LLF syntaxe du Français ( oral)
  • Amsili ? Sémantique formelle
  • Candito (grammaire ? Mots composés ? Sémantique
    lex. ?)
  • Sagot mots composés ? interfaces lexique
    LEFFF
  • Seddah comparaisons algos parsing
    (Bikel/Collins)
  • Manuélian anaphores
  • Nasr algos parsing (modèles discriminatifs)
  • Student friendly
  • Autres ?
  • Prix Diderot Valorisation
  • Financement

55
En marge
  • Grammaires TAG
  • XMG
  • Développements de grammaires du français (fini)
  • KMG
  • Sinwon Yoon Grammaire TAG du coréen
  • FTAG
  • S. Barrier Adjectifs
  • MLV
  • Grammaire TAG du français
  • Chinois ?
  • Segmentation et parsing P. Magistry pour le DEA
Write a Comment
User Comments (0)
About PowerShow.com