Title: Aucun titre de diapositive
1Sémantique lexicale et TALN Vecteur
conceptuelset apprentissage
Mathieu Lafourcade LIRMM - France www.lirmm.fr/l
afourca
2Objectifs
- Analyse sémantique
- Désambiguïsation de Sens
- Indexation de Textes en RI
- Transfert Lexical en TA
- Modèle de Vecteurs Conceptuels (MVC)
- Réminiscences
- Modèles vectoriels lexicaux (Salton)
- Modèles conceptuels (Sowa)
- Concepts (et non des termes)
- Ensemble E choisi a priori (petit) / par
émergence (grand) - Concepts interdépendants
- Propagation
- sur arbre danalyse morpho-syntaxique (pas
danalyse de surface)
3Vecteurs conceptuels
- Une idée
- combinaison linéaire de concepts
- un vecteur
- Lespace des idées
- espace vectoriel (que lon ne connaît pas a
priori - dont on se moque a posteriori--gt pas de
réduction de dimension) - Un concept
- une idée un vecteur
- combinaison de lui-même voisinage
- Comment choisir les concepts ?
4Vecteurs conceptuels
- Ensemble de k concepts
- Thesaurus Larousse 873 concepts
- --gt Un vecteur 873 uplet
- Thesaurus Rodget 1047 concepts
- --gt Un vecteur 1047 uplet
- EDR (Japon) --gt 40000 concepts
- Espace des sens espace vectoriel ensemble
de vecteurs
5Vecteurs conceptuels
- Exemple chat
- Noyau dont lindexation est manuelle
- cmammifère, ccaresse
- lt mammifère caresse gt
- lt 0,8 0,8 gt
- Augmenté
- c mammifère, ccaresse, czoologie, camour
- lt zoologie mammifère caresse amour gt
- lt 0,5 0,75 0,75 0,5 gt
- itération --gt affinage des vecteurs selon le
voisinage - Vecteurs sans aucun zéro
- --gt danger ! Avoir des vecteurs trop plats
6Espace vectoriel
- Les concepts
- Ne sont pas indépendants
- Espace des sens
- Espace générateur dun espace V de dim k
(inconnue) - k lt k
- Suffisant Position relative des points
?
V
V
7Expérience TH873 Thesaurus Larousse
- H hiérarchie des concepts K concepts feuilles
(K 873) - C0 racine , c1, c2 , c3, c4 feuilles
- V(Ci) lta1, , ai, , a873gt
- aj 1/ (2 Dum(H, i, j)) Dum distance
ultramétrique
1/4
1
1/4
1/4
1/16
1/16
1/64
1/64
2
6
4
8Vecteurs conceptuels TH873 Concept c4PAIX
c4Paix
C3Relations de conflit
C2Relation hiérarchiques
C1La Société
C1Le Monde , C1LHomme
9Vecteurs conceptuels TH873Terme Paix
c4Paix
10 échange
profit
finance
11Distance entre VCangulaire (ou encore dite de
magnitude)
- Distance Angulaire DA(x, y) angle (x, y)
- 0 lt DA(x, y) lt ?
- si 0 alors colinéaire - même idée
- si ?/2 alors rien en commun
- si ? alors DA(x, -x) avec -x (anti-idée de x)
x
x
?
y
12Distance entre VCangulaire (ou encore dite de
magnitude)
- DA(x, x) 0
- DA(x, y) DA(y, x)
- DA(x, y) DA(y, z) ? DA(x, z)
- DA(0, 0) 0 and DA(x, 0) ?/2 par def.
- DA(?x, ?y) DA(x, y) avec ?.? ? 0
- DA(?x, ?y) ? - DA(x, y) avec ?.? lt 0
- DA(xx, xy) DA(x, xy) ? DA(x, y)
13Conceptual vector distance
- Example
- DA(sparrow, sparrow) 0
- DA(sparrow, passerine) 0.4
- DA(sparrow, bird) 0.7
- DA(sparrow, train) 1.14
- DA(sparrow, insect) 0.62
- sparrow kind of insectivorous passerine
14Distance entre VC
- Exemple
- DA(moineau, moineau) 0
- DA(moineau, passereau) 0.4
- DA(moineau, oiseau) 0.7
- DA(moineau, train) 1.14
- DA(moineau, insecte) 0.62
- moineau espèce de passereau insectivore
15définitions du noyau (clous) - vecteurs invariants
définitions de dictionnaires - vecteurs modifiés
lors des révisions
plante.1K
scarabéeD
plante.1D
insecteK
plante.2D
insecteD
plante.2K
T
16Lexique de vecteurs conceptuels
- Ensemble de (terme, vecteur) (w, ?)
- Terme monosème ?
- Terme monodéfini
- --gt 1 sens (acception)
- --gt 1 vecteur
- (w, ?)
moineau
17Lexique de vecteurs conceptuelsConstruction pour
les polysèmes
- Terme polysème ?
- Terme polydéfini
- --gt n sens (acceptions)
- --gt n vecteurs
- (w, ?), (w.1, ?1) (w.n, ?n)
- bâtiment
- exploitation
- fermage
- élément de charpente
Ferme (NF)
18Lexique de vecteurs conceptuels Construction pour
les polysèmes
ferme
- bâtiment (agricole)
- exploitation (agricole)
- fermage
- élément de charpente
Danger les sens minoritaires sont trop affaiblis
19Lexique de vecteurs conceptuels Construction
pour les polysèmes
- ?(w) classification(w.i)
- aggregation ascendante binaire
ferme
20Portée du champ sémantique
- LS(w) LSt(?(w))
- LSt(?(w)) 1 si ? est une feuille
- LSt(?(w)) (LS(?1) LS(?2)) /(2-sin2(D(?(w)))
- sinon
- ?(w) ?t(?(w))
- ?t(?(w)) ?(w) si ? est une feuille
- ?t(?(w)) LS(?1)?t(?1) LS(?2)?t(?2)
- sinon
?(w)
Permet de gérer les définitions multiples
(redondantes)
21Pondération / Sélection
- Descente récursive
- sur t(w)
- comme arbre de décision
- DA(?, ?i)
- Arrêt sur une feuille
- Arrêt sur un nœud interne
22Stats sur les vecteurs
- Norm (?)
- 0 , 1 C (21532768)
- Intensity (?)
- Norme / C
- Généralement ? 1 (sauf pour les fonctions
syntaxiques) - Écart type (ET)
- ET2 variance
- variance 1/n ?(xi - moy)2
23Stats sur les vecteurs
- Coefficient de variation (CV)
- CV ET / moy
- Pas dunité - indépendant de la norme
- Force conceptuelle (pour les concepts sous
lhorizon) - si A Hyperonyme B ? CV(A) gt CV(B)
- (on a pas ? )
- vector jus de fruit (N)
- --gt Moy 527, ET 973 CV 1.88
- vector boisson (N)
- --gt Moy 443, ET 1014 CV 2.28
- Pour les concepts au-dessus de lhorizon,
- si A Hyperonyme B ? CV(A) lt CV(B) (on a pas ? )
24Opérations sur les vecteurs
- Somme
- V X ? Y ? vi xi yi
- Element neutre 0 X ? 0 X
- Généralisation à n termes V ? Vi
- Normalisation de la somme vi /V c
Sorte de moyenne - barycentre - centroïde
25Opérations sur les vecteurs
- Produit terme à terme normé (pttn)
- V X ? Y --gt vi xi yi
- Element neutre 1 X ? 1 X
- Généralisation à n termes V ? Vi
Intersection
26Opérations sur les vecteurs
- Amplification
- V X n --gt vi signe(vi) vi n
- ? V V 1/2 et n? V V 1/n
- V ? V V 2 si ? vi ? 0
- Normalisation du ptt à n termes V n? ? Vi
27Opérations sur les vecteurs
- Contextualisation somme ppt (non normée)
- ?(A, B) A?(A?B)
- Utilisée pour le calcul (simple) de vecteurs
requête en RI - ?(A, A) A?(A?A) A?A A
- ?(A, 0) A?(A?0) A?0 A
- ?(A, 1) A?(A?1) A?A A
- Ex ?(frégate, frégate) bof !
- ?(frégate, oiseau) ah oui !
28Opérations sur les vecteurs
- Soustraction
- V X - Y --gt vi xi - yi
- Soustraction pointée
- V X ? Y --gt vi max (xi - yi, 0)
- Complémentaire
- V C(X) --gt vi (1 - xi/c) c
-
Opérations ensemblistes
29Autres distancesDistance dintensité
- Intensité (norme) du ptt non normé
- 0 ? ?(? (X ? Y)) ? 1 si x y 1
- DI(X, Y) acos(?(? X ? Y))
- DI(X, X) 0 et DI(X, 0) ?/2
- DI(moineau, moineau) 0 (DA 0)
- DI(moineau, passereau) 0.25 (DA 0.4)
- DI(moineau, oiseau) 0.58 (DA 0.7)
- DI(moineau, train) 0.89 (DA 1.14)
- DI(moineau, insecte) 0.50 (DA 0.62)
30Autres distancesDistance de profil et
généralisation
- Profil Dp Comparaison de la forme des vecteurs
- (sans tenir compte de la magnitude)
- Généralisation DG magnitude profil
V
V
Dp(V,V ) 0
DG(X,Y) ?DA(X,Y) (? -1)DP(X,Y)
31Fonction Lexicale vectorielleSynonymie relative
- SynR(A, B, C) C est laxe de projection
-
- Rappel ?(A, B) A?(A?B)
- SynR(A, B, C) DA(?(A, C) , ?(B, C))
- DA(charbon,nuit) 0.9
- SynR(charbon, nuit, couleur) 0.4
- SynR(charbon, nuit, noir) 0.35
32Synonymie relative
- SynR(A, B, C) SynR(B, A, C)
- SynR(A, A, C) DA(A?(A?C), A?(A?C)) 0
- SynR(A, B, 0) DA(A, B)
- SynR(A, B, 1) DA(A, B)
- SynR(A, 0, C) ? /2
- SynR(A, B, A) DA(A?(A?A), B?(B?A))
- DA(A, B?(B?A))
33Analyse sémantique
- Propagation de vecteurs sur larbre
- (danalyse morpho-syntaxique Application
SYGMART J. Chauché)
P
GVA
GN
Les
rapidement
GV
termites
GNP
attaquent
les
fermes
GN
du
toit
Les termites attaquent les fermes du toit
rapidement
68
34Analyse sémantique
P
GVA
GN
Les
rapidement
GV
termites
GNP
attaquent
fermes
les
GN
agresser commencer critiquer
toit
du
Exploitation agricole bâtiment Élément de
charpente
(dune) maison Terme d anatomie au-dessus
35Analyse sémantique
- Initialisation
- les vecteurs sont attachés aux cerises
- puis propagés aux termes
P
GVA
GN
Les
rapidement
GV
termites
?1
?5
GNP
attaquent
?2
les
fermes
GN
?3
du
toit
poids
?4
1
1
1
1
1
1
1
1
1
36Analyse sémantique
- Propagation vers le haut (montée)
- ?(Ni ) ?(Ni 1) ? ? ?(Ni k)
P
GVA
GN
Les
rapidement
GV
termites
GNP
attaquent
les
fermes
GN
du
toit
37Analyse sémantique
- Descente contextualisation faible
- ?(Ni j) ?(Ni j, Ni ) ?(Ni j) ? (?(Ni j) ?
?(Ni))
P
GVA
GN
Les
rapidement
GV
termites
GNP
attaquent
les
fermes
GN
du
toit
0.1
0.8
0.1
Contextualisation forte
0.5
0.3
0.2
0.2
0.1
0.7
38Analyse sémantique
- Pondération/sélection de sens
P
GVA
GN
GV
Les
rapidement
termites
GNP
attaquent
les
fermes
GN
commencer ? attaquer critiquer
du
toit
exploitation bâtiment ? élément de charpente
? d une maison anatomie au-dessus
39Schémas syntaxiques
- S NP(ART,N)
- ? ?(NP) V(N)
- S NP1(NP2,N)
- ? ?(NP1) ? ?(NP1) ? ?(N) 0lt?lt1
- ?(bateau à voile) ?(bateau) ? 1/2 ?(voile)
- ?(voile de bateau) ?(voile) ? 1/2 ?(bateau)
Où est la tête (gouverneur) ?
40Iteration et convergence
- convergence ?
- (ou nb de cycles max)
- Local
- D(?i, ?i1) ? ? pour ? racine
- Global
- D(?i, ?i1) ? ? pour tout ?
Local Bons résultats et rapide
Global Meilleurs résultats mais coûteux et
converge rarement (oscillations)
41Construction et affinage de la base de VC
Définitions
Dico à usage humain (multisources)
Base de Vecteurs Conceptuels
SYGMART
Analyse morphosyntaxique (Sygmart)
42Construction et affinage de la base de VC
- Noyau manuel (nécessaire pour lamorçage)
- Analyses de définitions (dico, encyclo, etc. en
ligne et hors ligne) - Boucle infinie --gt apprentissage permanent
- Supervision --gt ajustements manuels(nouvelles
def, plus précises, moins ambiguës, etc.)
synonymes
Mots inconnus des définitions
itérations
noyau
43charançon n (un) petit insecte qui détruit les
grains .
PH
VPH
NP
REL
PUNCT
VVREL ??(VREL ,VPH )
VV1 ?2V2
ART
VP
ANP
PR
GN
ADJ
N
V
N
ART
GOV
un
petit
insecte
détruit
qui
.
grains
les
V1
V3
V4
V2 V2,1 ? V2.2
44charançon n (un) petit insecte qui détruit le
grain .
PH
VPH
NP
REL
PUNCT
VVREL ??(VREL ,VPH )
Analyse partielle
VV1 ?2V2
ART
VP
ANP
PR
GN
ADJ
N
V
N
ART
GOV
un
petit
insecte
détruit
qui
.
grains
les
Mot inconnu
V1
V3
V4 0
V2 V2,1 ? V2.2
45Mot inconnu
V4 0
46ÉmergenceExpérience EMER873
Pas de thésaurus - pas de noyau On fixe juste la
dimension de E (la taille des vecteurs)
Mot inconnu
On tire le vecteur au hasard
V4 0
On révisera au moment de lapprentissage de ce mot
Amplification pour éviter une convergence
globale vers le vecteur 1 (effet bouillie)
47Espace T
Maille fixe - densité lexicale variable
48Espace E
Maille variable - densité lexicale plus ou moins
constante
49Points de test 1/2
Les n vecteurs booléens (dans TH873 et EMER873
on a n 873)
Écart type de la densité lexicale (test 1)
ET(DL(E)) lt ET(DL(T))
50Points de test 2/2
Les p premiers termes en fréquence dusage
(dans TH873 et EMER873 on a p 1000)
Écart type de la densité lexicale (test 2)
ET(DL(E)) lt ET(DL(T))
51Construction de taxonomies
- Fonctions lexicales
- Hyperonymes/hyponymes (is-a)
- Holonymes/méronymes (part-of)
- Synonymes - Antonymes (agents à apprentissage D.
Schwab) - Cause/effet ???
- Combinaison
- Extractions lexicales (classique)
- Vecteurs conceptuels (pour la sélection des
acceptions des termes) - Jouer à la fois au niveau des termes - du sens
- des relations - Problématique de fond distinguer des sens par
affinage successifs
52Pierre précieuse
Gemme/pierre précieuse
Gemme/bourgeon
Gemme/résine
v
v
v
béryl
Plus proche vecteur
Émeraude/pierre précieuse
Émeraude/béryl
Émeraude/gemme
v
v
v
Pierre précieuse
Gemme/pierre précieuse
Gemme/bourgeon
Gemme/résine
v
v
v
béryl
Émeraude/pierre précieuse
Émeraude/béryl
Émeraude/gemme
v
v
v
53Pierre précieuse
0.9
Gemme/pierre précieuse
Gemme/bourgeon
Gemme/résine
0.81
béryl
0.7
0.85
Émeraude/pierre précieuse
Émeraude/béryl
Émeraude/vert
Émeraude/couleur
Pierre précieuse
Couleur/matière
Couleur/sensation
0.9
Gemme/pierre précieuse
Vert/couleur des signaux
Vert/couleur
0.81
béryl
0.85
Émeraude/vert
Émeraude/béryl
54Moyen de transport
artefact
hypo
aliment
animal
véhicule/Moyen de transport
véhicule/vecteur
nourriture
wagon
automobile
Cheval/moyen de transport
Viande/nourriture
hypo
Voiture/wagon
mammifère
hypo
Voiture/automobile
Cheval/viande
Cheval/mammifère
Cheval/unité de puissance
55Comparaisonentre les deux approches
- Émergence
-
- discrimination
- utilisation des ressources
- - évaluation par voisinage uniquement
- pas besoin de thésaurus
- ? Reconstitution du (dun) thésaurus ? au moins
partiellement -
-
- Thésaurus
- - discrimination
- - utilisation des ressources
- évaluation par inspection ou par voisinage
Concepts utiles
Concepts pertinents
Il faut coupler lanalyse par définitions et
lanalyse par corpus Analyses intentionnelle
(def), extentionnelle (ex), distributionelle
(corpus)
56Conclusion
- Emergence
- Vecteurs (fort rappel)
- Taxonomies (forte précision)
- Apprentissage permanent
- Différent dun entraînement
- Multi-sources
- Termes - Lexies - Acceptions
- Amas de lexies nommage réinjection
- Bouclages (cf Ch. Lecerf sur la Double boucle)
- Expérience en cours avec une dim 5000
57Fin
1. extremité 2. mort 3. but