Title: Syntex, un analyseur syntaxique de corpus
1Syntex, un analyseur syntaxique de corpus
- Didier Bourigault
- Cécile Fabre, Cécile Frérot, Marie-Paule
Jacques,Sylwia Ozdowska - Equipe de Recherche en Syntaxe et Sémantique
- CNRS Université Toulouse Le Mirail
- didier.bourigault_at_univ-tlse2.fr
- www.univ-tlse2.fr/erss/
2Syntex analyse syntaxique et construction dun
réseau de syntagmes
- En entrée un corpus étiqueté
- Dans chaque phrase, à chaque mot est associée une
étiquette morphosyntaxique - Étiqueteur TreeTagger
- (http//www.ims.uni-stuttgart.de/projekte/corplex
/ - En sortie
- 1) un corpus analysé syntaxiquement
- Dans chaque phrase, Syntex pose des relations de
dépendance syntaxique (sujet, complément dobjet,
épithète, ) entre les mots - 2) un réseau de syntagmes
- 1) De chaque phrase, Syntex extrait des syntagmes
(verbaux, nominaux, adjectivaux) - 2) Pour lensemble du corpus, Syntex construit un
réseau de syntagmes structuré par les relations
Tête et Expansion - Une version pour le français, une version pour
langlais
3 Analyse syntaxique en dépendance
Le chat de Marie mange une petite souris.
Etiquetage morphosyntaxique
LeDet chatNom dePrep MarieNomPr mangeVb
uneDet petiteAdj sourisNom.
Analyse syntaxique
OBJ
SUJ
LeDet chatNom dePrep MarieNomPr mangeVb
uneDet petiteAdj sourisNom.
4 Analyse syntaxique en dépendance
Num Mot 1 le 2 chat 3 de 4 Marie 5 mange 6 une 7 p
etite 8 souris 9 .
Lemme Catégorie le Det chat Nom de Prep Marie NomP
r manger V un Det petit Adj souris Nom . Typo
Recteur DET 2 SUJ 5 PREP 2 PREP-d
3 DET 8 ADJ 8 OBJ 5
Etiquetage morphosyntaxique Treetagger
Analyse syntaxique Syntex
52) Construction dun réseau de syntagmes
SUJ
OBJ
L érosion attaque un plan de faille
Extraction de syntagmes
faille
plan
T
E
plan de faille
attaquer
T tête E expansion
E
attaquer un plan de faille
plan nom ? plan de faille syntagme
nominal attaquer verbe ? attaquer un plan de
faille syntagme verbal
62) Construction dun réseau de syntagmes
attaquer pénéplaine pente raide
plan de faille roche sédimentaire
section anticlinale table karstique
plan de cisaillement de diaclase
de faille de glissement de
schistosité de stratification
T
T
faille escarpement
de ligne de plan de
E
72) Construction dun réseau de syntagmes
Descendants en Tête de corpus
Descendants en Expansion de corpus
8Utilisation de Syntex
- 1- Construction de ressources termino-ontologiques
- Le réseau de syntagmes est utilisé
- par un analyste (terminologue, expert, ingénieur,
) - pour construire une ressource terminologique
(thesaurus, terminologie, ontologie, ) - sur un domaine spécialisé (métier, pratique)
- pour une application cible (traduction
automatique, recherche dinformation, ) - Les corpus sont spécialisés
- Exemples
- documentation technique
- textes juridiques
- compte rendus médicaux
- articles scientifiques
- 2- Etudes syntaxiques sur corpus
9I Les relations syntaxiques de dépendance
10Les relations syntaxiques
- Dans chaque phrase, Syntex pose des relations de
dépendance syntaxique entre les mots - Les mots ont été préalablement étiquetés
- Une relation de dépendance syntaxique est
orientée - dun régi
- vers son recteur
- Un régi a un seul recteur
- Principales relations
- Relation intra-propositionnelle
- SUJ sujet de verbe
- OBJ complément dobjet direct de verbe
- PREP complément dobjet indirect de verbe, de
nom, dadjectif - ADJ épithète de nom
- Pour le moment, les relations inter-propositionnel
le ne sont pas (peu) traitées
11Les relations syntaxiques
- Sujet SUJ
- Recteur verbe (conjugué)
- Régi nom, pronom
SUJ
SUJ
Marie mange
Elle mange
SUJ
SUJ
Le chat que voit Marie
Le chat qui mange
12Les relations syntaxiques
- Complément dobjet direct OBJ
- Recteur verbe (conjugué, infinitif, participe
présent) - Régi nom, pronom, verbe infinitif
OBJ
OBJ
Marie regarde Jean
Marie le regarde
OBJ
OBJ
Marie veut regarder Jean
13Les relations syntaxiques
- Complément dobjet indirect PREP
- Recteur verbe, nom, adjectif
- Régi préposition
PREP
PREP
Marie compte sur Jean
Le chat de Marie
PREP
Marie est amoureuse de Jean
14Les relations syntaxiques
- Epithète ADJ
- Recteur nom
- Régi adjectif
ADJ
ADJ
un chat noir
un petit chat
ADJ
ADJ
un petit chat noir
15Les relations syntaxiques
- Atrribut ATT
- Recteur nom, pronom
- Régi adjectif, nom
ATT
ATT
un chat est noir
Jean est le fils de Marie
16Les relations syntaxiques
- PREP-d
- Recteur préposition
- Régi nom, verbe infinitif
PREP-d
PREP-d
le chat de Marie
Marie apprend à chanter
- DET
- Recteur nom
- Régi déterminant
DET
le chat
17Les relations syntaxiques
18Contraintes sur les relations syntaxiques
- Contrainte 1 un mot ne peut avoir plus dun
recteur - Mais un mot (recteur) peut avoir plusieurs régis
- Un mot peut être recteur et régi à la fois
REL
REL
REL
REL
régi recteur regi
régi recteur recteur
oui
non !
19Contraintes sur les relations syntaxiques
- Contrainte 2 Les relations de dépendance ne
peuvent se croiser
REL
REL
REL
REL
recteur recteur régi régi
recteur recteur régi régi
non !
oui
Les contraintes 1 et 2 sont des contraintes
suggérées par la théorie et imposées à lanalyseur
20Exos
OBJ
SUJ
DET
Je mange une pomme Marie voit une
jolie voiture bleue Le chat court après
la souris
(après préposition) Le petit chat attrape
la queue de la souris grise. Un accord
issu de longues négociations
OBJ
SUJ
DET
ADJ
ADJ
21II Autres relations anaphore relative
coordination
22Relation danaphore relative
- Anaphore relative REL
- Recteur pronom relatif
- Regi nom, pronom (lantécédent)
SUJ
REL
OBJ
SUJ
REL
Le chat que voit Marie
Le chat qui mange
23Relation de coordination
- Coordination COORD
- Recteur la conjonction de coordination
- Régis les mots coordonnés
- Le coordonnant porte les relations de rection
COORD
COORD
Jean et Marie
SUJ
COORD
COORD
COORD
Le chat de Jean , le chien de Marie et le
Hamster de Luc
24III Les modules danalyse syntaxique automatique
25Implémentation informatique
- Une architecture modulaire
- Un module par relation
- DET, PREP-d, COORD, OBJ, SUJ, REL, PREP (sauf
de ), ADJ, PREP (préposition de ) - Chaque module prend en entrée les résultats des
modules précédents - Ordre de difficulté (distance et ambiguïté de
rattachement) - Des heuristiques
- Chaque module est constitué dun ensemble
dheuristiques de parcours de la séquence annotée - (étiquettes morphosyntaxiques et relations
syntaxiques posées par les modules précédents) - Chaque module est écrit à la main
- Par des linguistes informaticiens
- Selon une approche empirique et expérimentale
basée sur lanalyse de corpus
26Particularité de Syntex lapprentissage endogène
- Pour résoudre les cas dambiguïté de
rattachement, Syntex utilise des informations - Endogènes
- acquises par Syntex, par analyse du corpus en
cours de traitement - propres au corpus en cours danalyse (et non
réutilisées) - Exogènes
- acquises par Syntex, par analyse dun corpus de
très grande taille (Le Monde 150 Mmot) - propriétés a priori générales (utilisées sur tous
les corpus) - Types dinformations
- Essentiellement des propriétés de
sous-catégorisation syntaxiques des verbes, noms
et adjectifs - Utilisées comme indices
27Algorithme DET
- Point de départ le déterminant (le régi)
- Direction droite
- Arrêt au premier Nom
DET
leDet chatNom
DET
leDet trèsAdv petitAdj chatNom
28Algorithme PREP-d
- Point de départ la préposition (le recteur)
- Direction droite
- Avec saut dun régi jusquà son recteur
- Arrêt au premier Nom ou Pronom ou Verbe à
linfinitif
PREP-d
avecPrep leDet chatNom
PREP-d
avecPrep leDet petitAdj chatNom
29Algorithme OBJET premier nom à droite
- Point de départ le verbe (le recteur)
- Si pronom clitique objet juste à gauche ou pronom
relatif que à gauche choix, arrêt - Sinon direction droite
- Saut de certaines séquences entre virgules
(incises) - Arrêt au premier Nom (ou verbe à linfinitif)
OBJ
MarieNom lePro regardeVB
OBJ
leDet chatNom mangeVb uneDet petiteAdj
sourisNom
30Algorithme OBJ exemples
OBJ
PREP-d
MarieNom installeVb surPrep sonDet
ordinateurNom unDet logicielNom
OBJ
leDet chatNom queProRel MarieNom
regardeVb
31Algorithme SUJET dernier nom à gauche
- Point de départ le verbe (le recteur)
- Direction gauche
- Saut de certaines séquences entre virgules
(incises) - Arrêt au dernier Nom ou Pronom
- Si échec (sujet inversé)
- Point de départ le verbe
- Direction droite
- Arrêt au premier Nom ou Pronom
32Algorithme SUJET exemples
SUJ
leDet petitAdj chatNom dePrep MarieNom
mangeVb
SUJ
SurDet leDet paillassonNom dormentVb
lesDet chatsNom
33Relation ADJ
- Point de départ ladjectif (le régi)
- Si nom juste à droite arrêt
- Sinon direction gauche
- Arrêt au premier (2ème, ) Nom ?
ADJ
leDet petitAdj chatNom
Ambiguïté de rattachement
ADJ ?
réfractionsNom dPrep ondesNom séismiquesAdj
34Ambiguïté de rattachement des adjectifs
- Exemple Nom1 de Nom2 Adjectif
ADJ ?
La discontinuité est marquée par les réfractions
d ondes séismiques
ADJ ?
Il se crée une vague d érosion remontante qui
creuse une gorge
ADJ ?
Se constitue ainsi une plaine de bordure
karstique.
35Apprentissage endogène sur corpus
- Comment résoudre lambiguïté de rattachement
- On ne peut pas utiliser des informations
sémantique du type - onde séismique est un terme du domaine , ou
dans ce domaine, les ondes peuvent être
séismiques - Puisque cest ce type dinformation que lon
cherche à construire à partir des résultats de
Syntex sur un corpus spécialisé - Apprentissage endogène
- Le logiciel acquiert par lui-même par analyse du
corpus en cours de traitement des informations
(indices) qui lui permettront de résoudre le cas
de rattachement ambigus
36Ambiguïté de rattachement des adjectifs
- Algorithme ADJ Un traitement en 2 étapes
- 1. Recherche des candidats recteurs
- Point de départ ladjectif (le régi)
- Direction gauche
- Noms, participe passé, respectant les contraintes
de genre et de nombre - Et acquisition de propriétés de rection dans les
contextes non ambigus - (indices endogènes calculés sur le corpus)
- 2. Sélection dun candidat
- Affectation des indices aux candidats
- arg nombre de fois que ladjectif est régi par
le candidat dans un contexte non ambigu - Choix de celui
- qui a le score dindice le plus élevé
- Ou qui est le plus proche de ladjectif
- si concurrence
- Ou si aucun candidat na reçu dindice
37Algorithme ADJ recherche des candidats
Contexte ambigu
réfractionsNomFP dPrep ondesNomFP
séismiquesAdj?P
c1 ondes
c2 réfractions
Contexte non ambigu
ADJ
envoiNomMS dPrep ondesNomFP
séismiquesAdj?P
c1 ondes
38Algorithme ADJ sélection dun candidat
Contexte ambigu
ADJ
réfractions d ondes séismiques
c1 ondes c2 réfraction
arg 1
arg 0
Contexte non ambigu
ADJ
envoi d ondes séismiques
39Ambiguïté de rattachement des prépositions
- Exemple Verbe Nom Adjectif en
PREP ?
L'érosion a disséqué le plateau rocheux en
chevrons
PREP ?
On observe une charge importante en trouble dans
les rivières
PREP ?
Il faut distinguer les roches pauvres en magnésium
40Indices pour désambiguïser
- Contextes non ambigus du corpus (indice arg)
triplets (recteur, préposition,régi) - Propriété de sous-catégorisation syntaxique
- Ex (disséquer, en) (donner,à) (taxe,sur)
(apte,à)
Contexte ambigu
PREP-d
L'érosion a disséqué le plateau rocheux en
chevrons
c1 rocheux
c2 plateau
c3 disséquer
arg 1
Contexte non ambigu
PREP-d
PREP
l'anticlinal, dont la carapace a été disséquée
en chevrons
41Propriétés de sous-catégorisation syntaxique
- où les trouver (pour le français) ?
- Dictionnaires (électroniques) existants
- Le Lexique-Grammaire du LADL le TLFi (Trésor de
la Langue Française informatisé) () - Acquisition de probabilités de sous-catégorisation
à partir de corpus - A partir dun corpus étiqueté automatiquement
- (Corpus Le Monde, Web, )
- A partir dun corpus annoté manuellement ( Penn
Tree Bank) - Choix pour Syntex
- A partir dun corpus partiellement analysé
syntaxiquement - Une méthode dacquisition, 2 types de ressources
( probabilités de sous-catégorisation) - Ressource endogène acquise au moment de
lanalyse à partir du corpus en cours danalyse,
puis oubliée ensuite (pEndo) - Ressource exogène construite préalablement à
partir dun gros corpus dapprentissage (140
M mots du Monde), utilisée pour chaque corpus
(pExo)
42Algorithme PREP
- Algorithme PREP Un traitement en 2 étapes
- 1. Recherche des candidats recteurs
- Point de départ la préposition (le régi)
- Direction gauche
- Noms, participe passé, adjectif, verbe
- Et acquisition de propriétés de rection dans les
contextes non ambigus - (indices arg et pEndo endogènes calculés sur le
corpus) - 2. Sélection dun candidat
- Affectation des indices aux candidats
- arg nombre de fois que ladjectif est régi par
le candidat dans un contexte non ambigu - pEndo probabilité endogène de
sous-catégrosiation (calculée sur le corpus
danalyse) - pExo probabilité exogène de sous-catégrosiation
(calculée préalablement sur un corpus
dapprentissage de grande taille) - Choix de celui
- qui a le score dindice le plus élevé
- Ou du dernier
43Calcul des probabilités de sous-catégorisation
- Corpus partiellement analysé
- Étiquetage morpho-syntaxique (Treetagger)
premiers modules Syntex - A partir des cas de rattachement non ambigus
- 1- Pour une préposition p, qui régit le mot m
le module de recherche des candidats a trouvé un
seul candidat recteur (m) - ?Incrémenter freq (m, p, m) de 1
-
- 2- Pour un mot m le module de recherche des
candidats ne la retenu comme candidat recteur
pour aucune préposition - ? Incrémenter freq (m,0) de 1
freq (m, p, m) 1
freq (m,0) 1
Je lai mangé avec une fourchette
Jean a mangé.
freq (manger, avec, fourchette) 1
freq (manger, 0) 1
44Calcul des probabilités de sous-catégorisation
fréquence de m sans préposition
freq(m,0) fréquence de m avec la préposition p
freq(m,p) ? m freq(m,p,m) fréquence totale
de m freq(m)
freq(m,0) ? p freq(m,p)
productivité de m avec p
prod(m,P)Card m / freq(m,P,m) gt 0
freq (manger, avec, Jean)5 freq(manger,à,restaur
antmaisonselfcantinetable)1 freq(manger,avec)
5 freq(manger,à)5 prod(manger,avec)1 prod(mange
r,à)5 proba(manger,avec)0.28 proba(manger,à)0.
72
45Calcul des probabilités de sous-catégorisation
- Exemple de ressource endogène résultats sur un
corpus médical
46Calcul des probabilités de sous-catégorisation
- Itérations (sur le corpus dapprentissage)
- Etape 0 ressources exogènes R0
- Etape i
- Résoudre les ambiguïtés de rattachement à laide
de la ressource construite à létape i-1 (Ri-1) - Pour chaque cas ambigu (mj, p,m) , j1 à
ncand - Sil existe un candidat k tel que prob(mk, P) gtgt
prob(mj?k,P) (rattachement certain) - Incrémenter freq(mk,P,m) de 1
- Incrémenter freq(mj?k,0) de 1
- Sinon (rattachement incertain)
- ? Pour tout j, incrémenter freq(mj,P,m) de
1/ncand - Recalculer les probabilités avec ces nouvelles
fréquences ET les fréquences calculées sur les
cas non ambigus (étape 0) Ri - Convergence après 4 itérations (sur le corpus Le
Monde 140 M mot
47Calcul des probabilités de sous-catégorisation
- Ressource exogène
- Corpus dapprentissage de 140 M mots (Le Monde,
1990-96) - Nombre de couples (m,p) 10 759
- freq(m)gt50
- proba(m,p) gt0.05
48Ressource exogène
49Ressource exogène
50Complémentarité endogène/exogène
- Ressource exogène
- Disponible (calculée une fois pour toute)
- Représentative dun usage relativement général
- Large
- Ressource endogène
- Représentative des usages attestés dans le corpus
(fréquents)
Ressource endogène
Ressource exogène
Information util(isé)e
51Evaluation sur 4 corpus de genres différents
52Stratégies de résolution
- 4 stratégies
- Base
- le dernier candidat
- Endogène
- le premier j / (mj,p,m) a été repéré dans un
contexte non ambigu - sinon argmax ( probaEndo (mj,p) )
- sinon le dernier
- Exogène
- argmax ( probaExo (mj,p) )
- sinon le dernier
- Mixte
- Le premier j / (mj,p,m) a été repéré dans un
contexte non ambigu - sinon argmax ( max (probaEndo (mj,p) , probaExo
(mj,p) ) - sinon le dernier
53Résultats de lévaluation du rattachement
prépositionnel
précision
100
90
80
70
60
50
base endo exo mixte
54IV Extraction de syntagmes
55Extraction de syntagmes exemple
JePro voisVb leDet museauNom dPrep uneDet
petiteAdj sourisNom
Tête ? Syntagme souris ? une petite
souris syntagme nominal de ? dune petite
souris syntagme prépositionnel museau ? le
museau dune petite souris syntagme
nominal vois ? vois le museau dune petite
souris syntagme verbal
56Extraction de syntagmes principe général
- Procédure de construction ascendante
- on commence par les mots les plus bas dans la
structure de dépendance - On construit le syntagme associé à un recteur dès
que les (éventuels) syntagmes associés à ses
régis ont été construits. - Chaque syntagme construit est composé
- dune Tête, correspondant au mot recteur
- dune ou plusieurs Expansions, correspondant aux
mots régis, qui sont elles-mêmes des mots ou des
syntagmes
57Exemple
voir le museau dune petite souris
voir
le museau dune petite souris
museau
dune petite souris
le
d
une petite souris
souris
une
petite
Tête Expansion petite souris souris petit
e museau dune petite souris museau petite
souris voir le museau dune petite souris
voir museau dune petite souris
58Résultat de lextraction réseau terminologique
- Construction dun réseau terminologique
- Chaque syntagme est relié à sa Tête et à ses
Expansions - Séries paradigmatiques syntagmes partageant la
même Tête ou la même Expansion
59Normalisations
- Normalisation
- passif ? actif
- Saut de préposition
- Saut de pronom relatif
REL
SUJ
PREP
PREP-d
Les agents de létat qui bénéficient
bénéficient de la formation professionnelle.
SUJ
DE
60Extraction de syntagmes dérivés
- Pour chaque syntagme maximal, on génère un
ensemble de syntagmes dérivés - Même tête
- En parallèle
- élimination progressive des expansions
- remplacement des syntagmes expansions par leurs
syntagmes dérivés - Filtrage
- Tout syntagme dérivé dont la fréquence est égale
à la fréquence dun (du) syntagme dont il dérive
est éliminé.
61Génération de syntagmes dérivés exemple
62Génération de syntagmes dérivés exemple
63Filtragre de syntagmes dérivés exemple
agent de létat bénéficier de formation
professionnelle
agent de létat bénéficier de formation agent
bénéficier de formation professionnelle agent
bénéficier de formation
agent des collectivités territoriales bénéficier
de formation
agent des collectivités bénéficier de
formation agent bénéficier de formation
64Formalisation
Soit S un syntagme. S ( T, E ), où T tête
(mot) et E (reli, Ei), i1 à n, Ei mot ou
syntagme Génération des syntagmes dérivés
Deriv (S) Pour p 0 à n Pour chaque p-uplet u
(i1, i2, , ip) / 1lt ik lt ik1 ltn, ? k ?1,
p S ( T, E) E (reljk, Ejk), k1 à
p , Ejk ? Deriv(Ejk) Exemples S ( T,
(rel1, U1), (rel2, U2) ), où U1 mot et U2
mot ? Deriv(S) (T, (rel1, U1) ), ( T,
(rel2, U2) )
65V Analyse distributionnelle Upery
66Analyse distributionnelle à la Harris
- Regrouper des unités lexicales sur la base de
contextes syntaxiques partagés (Harris, 1968) - NLP
- (Hindle, 1990) (Greffenstete,1994) (Lin, 1998)
- Ingénierie des connaissances
- (Assadi Bourigault, 1995) (Habert Nazarenko,
1996), (Faure Nédellec, 1998) - Analyse distributionnelle étendue prise en
compte dunités lexicales complexes
67Choix méthodologiques
- Chaque méthode d AD est caractérisée par
- Analyse syntaxique en entrée
- Données (unités rapprochées, contexte)
- Mesures de proximité
- Types de regroupement
- Couples, classes, cliques,
- Les choix dépendent du contexte dutilisation.
- Construction de ressources lexicales
spécialisées? prise en compte dunités complexes
68Données de lanalyse distributionnelle
- Chaque syntagme à n expansions fournitn données
pour lAD - Une donnée est un couple (terme, contexte)
- Terme expansion
- Contexte couple (tête, relation)
- Exemples
SNformation professionnelle ? professionnel ,
( formation , ADJ )
SVagent bénéficier de formation ? agent , (
bénéficier de formation , SUJ ) formation , (
agent bénéficier, DE )
69Mesures de similarité
- Mesures j1 et j2 pas de symétrisation
- Souvent, un des deux termes partage beaucoup de
ses contextes avec l'autre, la réciproque n'étant
pas vraie. - Les termes très productifs se comportent comme
des attracteurs.
( 1/jacc 1/j1 1/j2 -1 )
70Mesures de similarité
- Productivité dun terme, dun contexte
71Mesures de similarité
- Mesure prox
- Plus la productivité dun contexte partagé est
élevée, moins sa contribution à la similarité est
importante.
prox ?c 1/ prod(c)1/2
prox (détresse respiratoire, syndrome) 1,10
72Discussion
- Prise en compte de termes et de contextes
complexes - Grâce à une analyse syntaxique large
- Catégories verbale, nominale, adjectivale,
adverbiale - Mesures de similarité (j1 et j2, prox)
- Simples
- Ne font pas intervenir la fréquence !
- Corpus de taille moyenne
- Les hapax sont susceptibles dêtre intéressants
- Choix imposés par le contexte de la construction
de ressources lexicales spécialisées
73Discussion
- La dualité terme/contexte
- Les contextes justifient les rapprochement de
termes - Nécessaire pour la validation !
- Les termes justifient les rapprochement des
contextes - Notion de double clique
74Discussion dualité terme/contexte
- que faire de la relation ?
Upery
(Lin, 1998)
SV réaliser échographie ? échographie , (
réaliser , OBJ )
SV réaliser échographie ? échographie , (
réaliser , OBJ ) réaliser , ( échographie ,
OBJ-1 )
Rapprocher les termes Rapprocher les
contextes (doubles cliques)
Rapprocher les termes
75Discussion la dualité terme/contexte