Syntex, un analyseur syntaxique de corpus - PowerPoint PPT Presentation

1 / 75
About This Presentation
Title:

Syntex, un analyseur syntaxique de corpus

Description:

C cile Fabre, C cile Fr rot, Marie-Paule Jacques,Sylwia Ozdowska ... par un analyste (terminologue, expert, ing nieur, ...) pour construire une ressource ... – PowerPoint PPT presentation

Number of Views:332
Avg rating:3.0/5.0
Slides: 76
Provided by: didierbo2
Category:

less

Transcript and Presenter's Notes

Title: Syntex, un analyseur syntaxique de corpus


1
Syntex, un analyseur syntaxique de corpus
  • Didier Bourigault
  • Cécile Fabre, Cécile Frérot, Marie-Paule
    Jacques,Sylwia Ozdowska
  • Equipe de Recherche en Syntaxe et Sémantique
  • CNRS Université Toulouse Le Mirail
  • didier.bourigault_at_univ-tlse2.fr
  • www.univ-tlse2.fr/erss/

2
Syntex analyse syntaxique et construction dun
réseau de syntagmes
  • En entrée un corpus étiqueté
  • Dans chaque phrase, à chaque mot est associée une
    étiquette morphosyntaxique
  • Étiqueteur TreeTagger
  • (http//www.ims.uni-stuttgart.de/projekte/corplex
    /
  • En sortie
  • 1) un corpus analysé syntaxiquement
  • Dans chaque phrase, Syntex pose des relations de
    dépendance syntaxique (sujet, complément dobjet,
    épithète, ) entre les mots
  • 2) un réseau de syntagmes
  • 1) De chaque phrase, Syntex extrait des syntagmes
    (verbaux, nominaux, adjectivaux)
  • 2) Pour lensemble du corpus, Syntex construit un
    réseau de syntagmes structuré par les relations
    Tête et Expansion
  • Une version pour le français, une version pour
    langlais

3
Analyse syntaxique en dépendance
Le chat de Marie mange une petite souris.
Etiquetage morphosyntaxique
LeDet chatNom dePrep MarieNomPr mangeVb
uneDet petiteAdj sourisNom.
Analyse syntaxique
OBJ
SUJ
LeDet chatNom dePrep MarieNomPr mangeVb
uneDet petiteAdj sourisNom.
4
Analyse syntaxique en dépendance
Num Mot 1 le 2 chat 3 de 4 Marie 5 mange 6 une 7 p
etite 8 souris 9 .
Lemme Catégorie le Det chat Nom de Prep Marie NomP
r manger V un Det petit Adj souris Nom . Typo
Recteur DET 2 SUJ 5 PREP 2 PREP-d
3 DET 8 ADJ 8 OBJ 5
Etiquetage morphosyntaxique Treetagger
Analyse syntaxique Syntex
5
2) Construction dun réseau de syntagmes
SUJ
OBJ
L érosion attaque un plan de faille
Extraction de syntagmes
faille
plan
T
E
plan de faille
attaquer
T tête E expansion
E
attaquer un plan de faille
plan nom ? plan de faille syntagme
nominal attaquer verbe ? attaquer un plan de
faille syntagme verbal
6
2) Construction dun réseau de syntagmes
attaquer pénéplaine pente raide
plan de faille roche sédimentaire
section anticlinale table karstique
plan de cisaillement de diaclase
de faille de glissement de
schistosité de stratification
T
T
faille escarpement
de ligne de plan de
E
7
2) Construction dun réseau de syntagmes
Descendants en Tête de corpus
Descendants en Expansion de corpus
8
Utilisation de Syntex
  • 1- Construction de ressources termino-ontologiques
  • Le réseau de syntagmes est utilisé
  • par un analyste (terminologue, expert, ingénieur,
    )
  • pour construire une ressource terminologique
    (thesaurus, terminologie, ontologie, )
  • sur un domaine spécialisé (métier, pratique)
  • pour une application cible (traduction
    automatique, recherche dinformation, )
  • Les corpus sont spécialisés
  • Exemples
  • documentation technique
  • textes juridiques
  • compte rendus médicaux
  • articles scientifiques
  • 2- Etudes syntaxiques sur corpus

9
I Les relations syntaxiques de dépendance
10
Les relations syntaxiques
  • Dans chaque phrase, Syntex pose des relations de
    dépendance syntaxique entre les mots
  • Les mots ont été préalablement étiquetés
  • Une relation de dépendance syntaxique est
    orientée
  • dun régi
  • vers son recteur
  • Un régi a un seul recteur
  • Principales relations
  • Relation intra-propositionnelle
  • SUJ sujet de verbe
  • OBJ complément dobjet direct de verbe
  • PREP complément dobjet indirect de verbe, de
    nom, dadjectif
  • ADJ épithète de nom
  • Pour le moment, les relations inter-propositionnel
    le ne sont pas (peu) traitées

11
Les relations syntaxiques
  • Sujet SUJ
  • Recteur verbe (conjugué)
  • Régi nom, pronom

SUJ
SUJ
Marie mange
Elle mange
SUJ
SUJ
Le chat que voit Marie
Le chat qui mange
12
Les relations syntaxiques
  • Complément dobjet direct OBJ
  • Recteur verbe (conjugué, infinitif, participe
    présent)
  • Régi nom, pronom, verbe infinitif

OBJ
OBJ
Marie regarde Jean
Marie le regarde
OBJ
OBJ
Marie veut regarder Jean
13
Les relations syntaxiques
  • Complément dobjet indirect PREP
  • Recteur verbe, nom, adjectif
  • Régi préposition

PREP
PREP
Marie compte sur Jean
Le chat de Marie
PREP
Marie est amoureuse de Jean
14
Les relations syntaxiques
  • Epithète ADJ
  • Recteur nom
  • Régi adjectif

ADJ
ADJ
un chat noir
un petit chat
ADJ
ADJ
un petit chat noir
15
Les relations syntaxiques
  • Atrribut ATT
  • Recteur nom, pronom
  • Régi adjectif, nom

ATT
ATT
un chat est noir
Jean est le fils de Marie
16
Les relations syntaxiques
  • PREP-d
  • Recteur préposition
  • Régi nom, verbe infinitif

PREP-d
PREP-d
le chat de Marie
Marie apprend à chanter
  • DET
  • Recteur nom
  • Régi déterminant

DET
le chat
17
Les relations syntaxiques
18
Contraintes sur les relations syntaxiques
  • Contrainte 1 un mot ne peut avoir plus dun
    recteur
  • Mais un mot (recteur) peut avoir plusieurs régis
  • Un mot peut être recteur et régi à la fois

REL
REL
REL
REL
régi recteur regi
régi recteur recteur
oui
non !
19
Contraintes sur les relations syntaxiques
  • Contrainte 2 Les relations de dépendance ne
    peuvent se croiser

REL
REL
REL
REL
recteur recteur régi régi
recteur recteur régi régi
non !
oui
Les contraintes 1 et 2 sont des contraintes
suggérées par la théorie et imposées à lanalyseur
20
Exos
OBJ
SUJ
DET
Je mange une pomme Marie voit une
jolie voiture bleue Le chat court après
la souris
(après préposition) Le petit chat attrape
la queue de la souris grise. Un accord
issu de longues négociations
OBJ
SUJ
DET
ADJ
ADJ
21
II Autres relations anaphore relative
coordination
22
Relation danaphore relative
  • Anaphore relative REL
  • Recteur pronom relatif
  • Regi nom, pronom (lantécédent)

SUJ
REL
OBJ
SUJ
REL
Le chat que voit Marie
Le chat qui mange
23
Relation de coordination
  • Coordination COORD
  • Recteur la conjonction de coordination
  • Régis les mots coordonnés
  • Le coordonnant porte les relations de rection

COORD
COORD
Jean et Marie
SUJ
COORD
COORD
COORD
Le chat de Jean , le chien de Marie et le
Hamster de Luc
24
III Les modules danalyse syntaxique automatique
25
Implémentation informatique
  • Une architecture modulaire
  • Un module par relation
  • DET, PREP-d, COORD, OBJ, SUJ, REL, PREP (sauf
    de ), ADJ, PREP (préposition de )
  • Chaque module prend en entrée les résultats des
    modules précédents
  • Ordre de difficulté (distance et ambiguïté de
    rattachement)
  • Des heuristiques
  • Chaque module est constitué dun ensemble
    dheuristiques de parcours de la séquence annotée
  • (étiquettes morphosyntaxiques et relations
    syntaxiques posées par les modules précédents)
  • Chaque module est écrit à la main
  • Par des linguistes informaticiens
  • Selon une approche empirique et expérimentale
    basée sur lanalyse de corpus

26
Particularité de Syntex lapprentissage endogène
  • Pour résoudre les cas dambiguïté de
    rattachement, Syntex utilise des informations
  • Endogènes
  • acquises par Syntex, par analyse du corpus en
    cours de traitement
  • propres au corpus en cours danalyse (et non
    réutilisées)
  • Exogènes
  • acquises par Syntex, par analyse dun corpus de
    très grande taille (Le Monde 150 Mmot)
  • propriétés a priori générales (utilisées sur tous
    les corpus)
  • Types dinformations
  • Essentiellement des propriétés de
    sous-catégorisation syntaxiques des verbes, noms
    et adjectifs
  • Utilisées comme indices

27
Algorithme DET
  • Point de départ le déterminant (le régi)
  • Direction droite
  • Arrêt au premier Nom

DET
leDet chatNom
DET
leDet trèsAdv petitAdj chatNom
28
Algorithme PREP-d
  • Point de départ la préposition (le recteur)
  • Direction droite
  • Avec saut dun régi jusquà son recteur
  • Arrêt au premier Nom ou Pronom ou Verbe à
    linfinitif

PREP-d
avecPrep leDet chatNom
PREP-d
avecPrep leDet petitAdj chatNom
29
Algorithme OBJET premier nom à droite
  • Point de départ le verbe (le recteur)
  • Si pronom clitique objet juste à gauche ou pronom
    relatif que à gauche choix, arrêt
  • Sinon direction droite
  • Saut de certaines séquences entre virgules
    (incises)
  • Arrêt au premier Nom (ou verbe à linfinitif)

OBJ
MarieNom lePro regardeVB
OBJ
leDet chatNom mangeVb uneDet petiteAdj
sourisNom
30
Algorithme OBJ exemples
OBJ
PREP-d
MarieNom installeVb surPrep sonDet
ordinateurNom unDet logicielNom
OBJ
leDet chatNom queProRel MarieNom
regardeVb
31
Algorithme SUJET dernier nom à gauche
  • Point de départ le verbe (le recteur)
  • Direction gauche
  • Saut de certaines séquences entre virgules
    (incises)
  • Arrêt au dernier Nom ou Pronom
  • Si échec (sujet inversé)
  • Point de départ le verbe
  • Direction droite
  • Arrêt au premier Nom ou Pronom

32
Algorithme SUJET exemples
SUJ
leDet petitAdj chatNom dePrep MarieNom
mangeVb
SUJ
SurDet leDet paillassonNom dormentVb
lesDet chatsNom
33
Relation ADJ
  • Point de départ ladjectif (le régi)
  • Si nom juste à droite arrêt
  • Sinon direction gauche
  • Arrêt au premier (2ème, ) Nom ?

ADJ
leDet petitAdj chatNom
Ambiguïté de rattachement
ADJ ?
réfractionsNom dPrep ondesNom séismiquesAdj
34
Ambiguïté de rattachement des adjectifs
  • Exemple Nom1 de Nom2 Adjectif

ADJ ?
La discontinuité est marquée par les réfractions
d ondes séismiques
ADJ ?
Il se crée une vague d érosion remontante qui
creuse une gorge
ADJ ?
Se constitue ainsi une plaine de bordure
karstique.
35
Apprentissage endogène sur corpus
  • Comment résoudre lambiguïté de rattachement
  • On ne peut pas utiliser des informations
    sémantique du type
  • onde séismique est un terme du domaine , ou
    dans ce domaine, les ondes peuvent être
    séismiques
  • Puisque cest ce type dinformation que lon
    cherche à construire à partir des résultats de
    Syntex sur un corpus spécialisé
  • Apprentissage endogène
  • Le logiciel acquiert par lui-même par analyse du
    corpus en cours de traitement des informations
    (indices) qui lui permettront de résoudre le cas
    de rattachement ambigus

36
Ambiguïté de rattachement des adjectifs
  • Algorithme ADJ Un traitement en 2 étapes
  • 1. Recherche des candidats recteurs
  • Point de départ ladjectif (le régi)
  • Direction gauche
  • Noms, participe passé, respectant les contraintes
    de genre et de nombre
  • Et acquisition de propriétés de rection dans les
    contextes non ambigus
  • (indices endogènes calculés sur le corpus)
  • 2. Sélection dun candidat
  • Affectation des indices aux candidats
  • arg nombre de fois que ladjectif est régi par
    le candidat dans un contexte non ambigu
  • Choix de celui
  • qui a le score dindice le plus élevé
  • Ou qui est le plus proche de ladjectif
  • si concurrence
  • Ou si aucun candidat na reçu dindice

37
Algorithme ADJ recherche des candidats
Contexte ambigu
réfractionsNomFP dPrep ondesNomFP
séismiquesAdj?P
c1 ondes
c2 réfractions
Contexte non ambigu
ADJ
envoiNomMS dPrep ondesNomFP
séismiquesAdj?P
c1 ondes
38
Algorithme ADJ sélection dun candidat
Contexte ambigu
ADJ
réfractions d ondes séismiques
c1 ondes c2 réfraction
arg 1
arg 0
Contexte non ambigu
ADJ
envoi d ondes séismiques
39
Ambiguïté de rattachement des prépositions
  • Exemple Verbe Nom Adjectif en

PREP ?
L'érosion a disséqué le plateau rocheux en
chevrons
PREP ?
On observe une charge importante en trouble dans
les rivières
PREP ?
Il faut distinguer les roches pauvres en magnésium
40
Indices pour désambiguïser
  • Contextes non ambigus du corpus (indice arg)
    triplets (recteur, préposition,régi)
  • Propriété de sous-catégorisation syntaxique
  • Ex (disséquer, en) (donner,à) (taxe,sur)
    (apte,à)

Contexte ambigu
PREP-d
L'érosion a disséqué le plateau rocheux en
chevrons
c1 rocheux
c2 plateau
c3 disséquer
arg 1
Contexte non ambigu
PREP-d
PREP
l'anticlinal, dont la carapace a été disséquée
en chevrons
41
Propriétés de sous-catégorisation syntaxique
  • où les trouver (pour le français) ?
  • Dictionnaires (électroniques) existants
  • Le Lexique-Grammaire du LADL le TLFi (Trésor de
    la Langue Française informatisé) ()
  • Acquisition de probabilités de sous-catégorisation
    à partir de corpus
  • A partir dun corpus étiqueté automatiquement
  • (Corpus Le Monde, Web, )
  • A partir dun corpus annoté manuellement ( Penn
    Tree Bank)
  • Choix pour Syntex
  • A partir dun corpus partiellement analysé
    syntaxiquement
  • Une méthode dacquisition, 2 types de ressources
    ( probabilités de sous-catégorisation)
  • Ressource endogène acquise au moment de
    lanalyse à partir du corpus en cours danalyse,
    puis oubliée ensuite (pEndo)
  • Ressource exogène construite préalablement à
    partir dun gros corpus dapprentissage (140
    M mots du Monde), utilisée pour chaque corpus
    (pExo)

42
Algorithme PREP
  • Algorithme PREP Un traitement en 2 étapes
  • 1. Recherche des candidats recteurs
  • Point de départ la préposition (le régi)
  • Direction gauche
  • Noms, participe passé, adjectif, verbe
  • Et acquisition de propriétés de rection dans les
    contextes non ambigus
  • (indices arg et pEndo endogènes calculés sur le
    corpus)
  • 2. Sélection dun candidat
  • Affectation des indices aux candidats
  • arg nombre de fois que ladjectif est régi par
    le candidat dans un contexte non ambigu
  • pEndo probabilité endogène de
    sous-catégrosiation (calculée sur le corpus
    danalyse)
  • pExo probabilité exogène de sous-catégrosiation
    (calculée préalablement sur un corpus
    dapprentissage de grande taille)
  • Choix de celui
  • qui a le score dindice le plus élevé
  • Ou du dernier

43
Calcul des probabilités de sous-catégorisation
  • Corpus partiellement analysé
  • Étiquetage morpho-syntaxique (Treetagger)
    premiers modules Syntex
  • A partir des cas de rattachement non ambigus
  • 1- Pour une préposition p, qui régit le mot m
    le module de recherche des candidats a trouvé un
    seul candidat recteur (m)
  • ?Incrémenter freq (m, p, m) de 1
  • 2- Pour un mot m le module de recherche des
    candidats ne la retenu comme candidat recteur
    pour aucune préposition
  • ? Incrémenter freq (m,0) de 1

freq (m, p, m) 1
freq (m,0) 1
Je lai mangé avec une fourchette
Jean a mangé.
freq (manger, avec, fourchette) 1
freq (manger, 0) 1
44
Calcul des probabilités de sous-catégorisation
fréquence de m sans préposition
freq(m,0) fréquence de m avec la préposition p
freq(m,p) ? m freq(m,p,m) fréquence totale
de m freq(m)
freq(m,0) ? p freq(m,p)
productivité de m avec p
prod(m,P)Card m / freq(m,P,m) gt 0
freq (manger, avec, Jean)5 freq(manger,à,restaur
antmaisonselfcantinetable)1 freq(manger,avec)
5 freq(manger,à)5 prod(manger,avec)1 prod(mange
r,à)5 proba(manger,avec)0.28 proba(manger,à)0.
72
45
Calcul des probabilités de sous-catégorisation
  • Exemple de ressource endogène résultats sur un
    corpus médical

46
Calcul des probabilités de sous-catégorisation
  • Itérations (sur le corpus dapprentissage)
  • Etape 0 ressources exogènes R0
  • Etape i
  • Résoudre les ambiguïtés de rattachement à laide
    de la ressource construite à létape i-1 (Ri-1)
  • Pour chaque cas ambigu (mj, p,m) , j1 à
    ncand
  • Sil existe un candidat k tel que prob(mk, P) gtgt
    prob(mj?k,P) (rattachement certain)
  • Incrémenter freq(mk,P,m) de 1
  • Incrémenter freq(mj?k,0) de 1
  • Sinon (rattachement incertain)
  • ? Pour tout j, incrémenter freq(mj,P,m) de
    1/ncand
  • Recalculer les probabilités avec ces nouvelles
    fréquences ET les fréquences calculées sur les
    cas non ambigus (étape 0) Ri
  • Convergence après 4 itérations (sur le corpus Le
    Monde 140 M mot

47
Calcul des probabilités de sous-catégorisation
  • Ressource exogène
  • Corpus dapprentissage de 140 M mots (Le Monde,
    1990-96)
  • Nombre de couples (m,p) 10 759
  • freq(m)gt50
  • proba(m,p) gt0.05

48
Ressource exogène
49
Ressource exogène
50
Complémentarité endogène/exogène
  • Ressource exogène
  • Disponible (calculée une fois pour toute)
  • Représentative dun usage relativement général
  • Large
  • Ressource endogène
  • Représentative des usages attestés dans le corpus
    (fréquents)

Ressource endogène
Ressource exogène
Information util(isé)e
51
Evaluation sur 4 corpus de genres différents
52
Stratégies de résolution
  • 4 stratégies
  • Base
  • le dernier candidat
  • Endogène
  • le premier j / (mj,p,m) a été repéré dans un
    contexte non ambigu
  • sinon argmax ( probaEndo (mj,p) )
  • sinon le dernier
  • Exogène
  • argmax ( probaExo (mj,p) )
  • sinon le dernier
  • Mixte
  • Le premier j / (mj,p,m) a été repéré dans un
    contexte non ambigu
  • sinon argmax ( max (probaEndo (mj,p) , probaExo
    (mj,p) )
  • sinon le dernier

53
Résultats de lévaluation du rattachement
prépositionnel
précision
100
90
80
70
60
50
base endo exo mixte
54
IV Extraction de syntagmes
55
Extraction de syntagmes exemple
JePro voisVb leDet museauNom dPrep uneDet
petiteAdj sourisNom
Tête ? Syntagme souris ? une petite
souris syntagme nominal de ? dune petite
souris syntagme prépositionnel museau ? le
museau dune petite souris syntagme
nominal vois ? vois le museau dune petite
souris syntagme verbal
56
Extraction de syntagmes principe général
  • Procédure de construction ascendante
  • on commence par les mots les plus bas dans la
    structure de dépendance
  • On construit le syntagme associé à un recteur dès
    que les (éventuels) syntagmes associés à ses
    régis ont été construits.
  • Chaque syntagme construit est composé
  • dune Tête, correspondant au mot recteur
  • dune ou plusieurs Expansions, correspondant aux
    mots régis, qui sont elles-mêmes des mots ou des
    syntagmes

57
Exemple
voir le museau dune petite souris
voir
le museau dune petite souris
museau
dune petite souris
le
d
une petite souris
souris
une
petite
Tête Expansion petite souris souris petit
e museau dune petite souris museau petite
souris voir le museau dune petite souris
voir museau dune petite souris
58
Résultat de lextraction réseau terminologique
  • Construction dun réseau terminologique
  • Chaque syntagme est relié à sa Tête et à ses
    Expansions
  • Séries paradigmatiques syntagmes partageant la
    même Tête ou la même Expansion

59
Normalisations
  • Normalisation
  • passif ? actif
  • Saut de préposition
  • Saut de pronom relatif

REL
SUJ
PREP
PREP-d
Les agents de létat qui bénéficient
bénéficient de la formation professionnelle.
SUJ
DE
60
Extraction de syntagmes dérivés
  • Pour chaque syntagme maximal, on génère un
    ensemble de syntagmes dérivés
  • Même tête
  • En parallèle
  • élimination progressive des expansions
  • remplacement des syntagmes expansions par leurs
    syntagmes dérivés
  • Filtrage
  • Tout syntagme dérivé dont la fréquence est égale
    à la fréquence dun (du) syntagme dont il dérive
    est éliminé.

61
Génération de syntagmes dérivés exemple
62
Génération de syntagmes dérivés exemple
63
Filtragre de syntagmes dérivés exemple
agent de létat bénéficier de formation
professionnelle
agent de létat bénéficier de formation agent
bénéficier de formation professionnelle agent
bénéficier de formation
agent des collectivités territoriales bénéficier
de formation
agent des collectivités bénéficier de
formation agent bénéficier de formation
64
Formalisation
Soit S un syntagme. S ( T, E ), où T tête
(mot) et E (reli, Ei), i1 à n, Ei mot ou
syntagme Génération des syntagmes dérivés
Deriv (S) Pour p 0 à n Pour chaque p-uplet u
(i1, i2, , ip) / 1lt ik lt ik1 ltn, ? k ?1,
p S ( T, E) E (reljk, Ejk), k1 à
p , Ejk ? Deriv(Ejk) Exemples S ( T,
(rel1, U1), (rel2, U2) ), où U1 mot et U2
mot ? Deriv(S) (T, (rel1, U1) ), ( T,
(rel2, U2) )
65
V Analyse distributionnelle Upery
66
Analyse distributionnelle à la Harris
  • Regrouper des unités lexicales sur la base de
    contextes syntaxiques partagés (Harris, 1968)
  • NLP
  • (Hindle, 1990) (Greffenstete,1994) (Lin, 1998)
  • Ingénierie des connaissances
  • (Assadi Bourigault, 1995) (Habert Nazarenko,
    1996), (Faure Nédellec, 1998)
  • Analyse distributionnelle étendue prise en
    compte dunités lexicales complexes

67
Choix méthodologiques
  • Chaque méthode d AD est caractérisée par
  • Analyse syntaxique en entrée
  • Données (unités rapprochées, contexte)
  • Mesures de proximité
  • Types de regroupement
  • Couples, classes, cliques,
  • Les choix dépendent du contexte dutilisation.
  • Construction de ressources lexicales
    spécialisées? prise en compte dunités complexes

68
Données de lanalyse distributionnelle
  • Chaque syntagme à n expansions fournitn données
    pour lAD
  • Une donnée est un couple (terme, contexte)
  • Terme expansion
  • Contexte couple (tête, relation)
  • Exemples

SNformation professionnelle ? professionnel ,
( formation , ADJ )
SVagent bénéficier de formation ? agent , (
bénéficier de formation , SUJ ) formation , (
agent bénéficier, DE )
69
Mesures de similarité
  • Mesures j1 et j2 pas de symétrisation
  • Souvent, un des deux termes partage beaucoup de
    ses contextes avec l'autre, la réciproque n'étant
    pas vraie.
  • Les termes très productifs se comportent comme
    des attracteurs.

( 1/jacc 1/j1 1/j2 -1 )
70
Mesures de similarité
  • Productivité dun terme, dun contexte

71
Mesures de similarité
  • Mesure prox
  • Plus la productivité dun contexte partagé est
    élevée, moins sa contribution à la similarité est
    importante.

prox ?c 1/ prod(c)1/2
prox (détresse respiratoire, syndrome) 1,10
72
Discussion
  • Prise en compte de termes et de contextes
    complexes
  • Grâce à une analyse syntaxique large
  • Catégories verbale, nominale, adjectivale,
    adverbiale
  • Mesures de similarité (j1 et j2, prox)
  • Simples
  • Ne font pas intervenir la fréquence !
  • Corpus de taille moyenne
  • Les hapax sont susceptibles dêtre intéressants
  • Choix imposés par le contexte de la construction
    de ressources lexicales spécialisées

73
Discussion
  • La dualité terme/contexte
  • Les contextes justifient les rapprochement de
    termes
  • Nécessaire pour la validation !
  • Les termes justifient les rapprochement des
    contextes
  • Notion de double clique

74
Discussion dualité terme/contexte
  • que faire de la relation ?

Upery
(Lin, 1998)
SV réaliser échographie ? échographie , (
réaliser , OBJ )
SV réaliser échographie ? échographie , (
réaliser , OBJ ) réaliser , ( échographie ,
OBJ-1 )
Rapprocher les termes Rapprocher les
contextes (doubles cliques)
Rapprocher les termes
75
Discussion la dualité terme/contexte
Write a Comment
User Comments (0)
About PowerShow.com