Aucun titre de diapositive - PowerPoint PPT Presentation

About This Presentation
Title:

Aucun titre de diapositive

Description:

attaquent. les. fermes. GN. GN. du. toit. Les termites attaquent les fermes du toit rapidement ... GV. GVA. GNP. attaquent. fermes. termites. les. GN. toit. GN. du. Exploitation ... – PowerPoint PPT presentation

Number of Views:53
Avg rating:3.0/5.0
Slides: 58
Provided by: lir7
Category:

less

Transcript and Presenter's Notes

Title: Aucun titre de diapositive


1
Sémantique lexicale et TALN Vecteur
conceptuelset apprentissage
Mathieu Lafourcade LIRMM - France www.lirmm.fr/l
afourca
2
Objectifs
  • Analyse sémantique
  • Désambiguïsation de Sens
  • Indexation de Textes en RI
  • Transfert Lexical en TA
  • Modèle de Vecteurs Conceptuels (MVC)
  • Réminiscences
  • Modèles vectoriels lexicaux (Salton)
  • Modèles conceptuels (Sowa)
  • Concepts (et non des termes)
  • Ensemble E choisi a priori (petit) / par
    émergence (grand)
  • Concepts interdépendants
  • Propagation
  • sur arbre danalyse morpho-syntaxique (pas
    danalyse de surface)

3
Vecteurs conceptuels
  • Une idée
  • combinaison linéaire de concepts
  • un vecteur
  • Lespace des idées
  • espace vectoriel (que lon ne connaît pas a
    priori - dont on se moque a posteriori--gt pas de
    réduction de dimension)
  • Un concept
  • une idée un vecteur
  • combinaison de lui-même voisinage
  • Comment choisir les concepts ?

4
Vecteurs conceptuels
  • Ensemble de k concepts
  • Thesaurus Larousse 873 concepts
  • --gt Un vecteur 873 uplet
  • Thesaurus Rodget 1047 concepts
  • --gt Un vecteur 1047 uplet
  • EDR (Japon) --gt 40000 concepts
  • Espace des sens espace vectoriel ensemble
    de vecteurs

5
Vecteurs conceptuels
  • Exemple chat
  • Noyau dont lindexation est manuelle
  • cmammifère, ccaresse
  • lt mammifère caresse gt
  • lt 0,8 0,8 gt
  • Augmenté
  • c mammifère, ccaresse, czoologie, camour
  • lt zoologie mammifère caresse amour gt
  • lt 0,5 0,75 0,75 0,5 gt
  • itération --gt affinage des vecteurs selon le
    voisinage
  • Vecteurs sans aucun zéro
  • --gt danger ! Avoir des vecteurs trop plats

6
Espace vectoriel
  • Les concepts
  • Ne sont pas indépendants
  • Espace des sens
  • Espace générateur dun espace V de dim k
    (inconnue)
  • k lt k
  • Suffisant Position relative des points

?
V
V
7
Expérience TH873 Thesaurus Larousse
  • H hiérarchie des concepts K concepts feuilles
    (K 873)
  • C0 racine , c1, c2 , c3, c4 feuilles
  • V(Ci) lta1, , ai, , a873gt
  • aj 1/ (2 Dum(H, i, j)) Dum distance
    ultramétrique

1/4
1
1/4
1/4
1/16
1/16
1/64
1/64
2
6
4
8
Vecteurs conceptuels TH873 Concept c4PAIX
c4Paix
C3Relations de conflit
C2Relation hiérarchiques
C1La Société
C1Le Monde , C1LHomme
9
Vecteurs conceptuels TH873Terme Paix
c4Paix
10

échange
profit
finance
11
Distance entre VCangulaire (ou encore dite de
magnitude)
  • Distance Angulaire DA(x, y) angle (x, y)
  • 0 lt DA(x, y) lt ?
  • si 0 alors colinéaire - même idée
  • si ?/2 alors rien en commun
  • si ? alors DA(x, -x) avec -x (anti-idée de x)

x
x
?
y
12
Distance entre VCangulaire (ou encore dite de
magnitude)
  • DA(x, x) 0
  • DA(x, y) DA(y, x)
  • DA(x, y) DA(y, z) ? DA(x, z)
  • DA(0, 0) 0 and DA(x, 0) ?/2 par def.
  • DA(?x, ?y) DA(x, y) avec ?.? ? 0
  • DA(?x, ?y) ? - DA(x, y) avec ?.? lt 0
  • DA(xx, xy) DA(x, xy) ? DA(x, y)

13
Conceptual vector distance
  • Example
  • DA(sparrow, sparrow) 0
  • DA(sparrow, passerine) 0.4
  • DA(sparrow, bird) 0.7
  • DA(sparrow, train) 1.14
  • DA(sparrow, insect) 0.62
  • sparrow kind of insectivorous passerine

14
Distance entre VC
  • Exemple
  • DA(moineau, moineau) 0
  • DA(moineau, passereau) 0.4
  • DA(moineau, oiseau) 0.7
  • DA(moineau, train) 1.14
  • DA(moineau, insecte) 0.62
  • moineau espèce de passereau insectivore

15
définitions du noyau (clous) - vecteurs invariants
définitions de dictionnaires - vecteurs modifiés
lors des révisions
plante.1K
scarabéeD
plante.1D
insecteK
plante.2D
insecteD
plante.2K
T
16
Lexique de vecteurs conceptuels
  • Ensemble de (terme, vecteur) (w, ?)
  • Terme monosème ?
  • Terme monodéfini
  • --gt 1 sens (acception)
  • --gt 1 vecteur
  • (w, ?)

moineau
17
Lexique de vecteurs conceptuelsConstruction pour
les polysèmes
  • Terme polysème ?
  • Terme polydéfini
  • --gt n sens (acceptions)
  • --gt n vecteurs
  • (w, ?), (w.1, ?1) (w.n, ?n)
  • bâtiment
  • exploitation
  • fermage
  • élément de charpente

Ferme (NF)
18
Lexique de vecteurs conceptuels Construction pour
les polysèmes
  • ?(w) ? ?(w.i)

ferme
  • bâtiment (agricole)
  • exploitation (agricole)
  • fermage
  • élément de charpente

Danger les sens minoritaires sont trop affaiblis
19
Lexique de vecteurs conceptuels Construction
pour les polysèmes
  • ?(w) classification(w.i)
  • aggregation ascendante binaire

ferme
20
Portée du champ sémantique
  • LS(w) LSt(?(w))
  • LSt(?(w)) 1 si ? est une feuille
  • LSt(?(w)) (LS(?1) LS(?2)) /(2-sin2(D(?(w)))
  • sinon
  • ?(w) ?t(?(w))
  • ?t(?(w)) ?(w) si ? est une feuille
  • ?t(?(w)) LS(?1)?t(?1) LS(?2)?t(?2)
  • sinon

?(w)
Permet de gérer les définitions multiples
(redondantes)
21
Pondération / Sélection
  • Descente récursive
  • sur t(w)
  • comme arbre de décision
  • DA(?, ?i)
  • Arrêt sur une feuille
  • Arrêt sur un nœud interne

22
Stats sur les vecteurs
  • Norm (?)
  • 0 , 1 C (21532768)
  • Intensity (?)
  • Norme / C
  • Généralement ? 1 (sauf pour les fonctions
    syntaxiques)
  • Écart type (ET)
  • ET2 variance
  • variance 1/n ?(xi - moy)2

23
Stats sur les vecteurs
  • Coefficient de variation (CV)
  • CV ET / moy
  • Pas dunité - indépendant de la norme
  • Force conceptuelle (pour les concepts sous
    lhorizon)
  • si A Hyperonyme B ? CV(A) gt CV(B)
  • (on a pas ? )
  • vector  jus de fruit  (N)
  • --gt Moy 527, ET 973 CV 1.88
  • vector  boisson  (N)
  • --gt Moy 443, ET 1014 CV 2.28
  • Pour les concepts au-dessus de lhorizon,
  • si A Hyperonyme B ? CV(A) lt CV(B) (on a pas ? )

24
Opérations sur les vecteurs
  • Somme
  • V X ? Y ? vi xi yi
  • Element neutre 0 X ? 0 X
  • Généralisation à n termes V ? Vi
  • Normalisation de la somme vi /V c

Sorte de moyenne - barycentre - centroïde
25
Opérations sur les vecteurs
  • Produit terme à terme normé (pttn)
  • V X ? Y --gt vi xi yi
  • Element neutre 1 X ? 1 X
  • Généralisation à n termes V ? Vi

Intersection
26
Opérations sur les vecteurs
  • Amplification
  • V X n --gt vi signe(vi) vi n
  • ? V V 1/2 et n? V V 1/n
  • V ? V V 2 si ? vi ? 0
  • Normalisation du ptt à n termes V n? ? Vi

27
Opérations sur les vecteurs
  • Contextualisation somme ppt (non normée)
  • ?(A, B) A?(A?B)
  • Utilisée pour le calcul (simple) de vecteurs
    requête en RI
  • ?(A, A) A?(A?A) A?A A
  • ?(A, 0) A?(A?0) A?0 A
  • ?(A, 1) A?(A?1) A?A A
  • Ex ?(frégate, frégate) bof !
  • ?(frégate, oiseau) ah oui !

28
Opérations sur les vecteurs
  • Soustraction
  • V X - Y --gt vi xi - yi
  • Soustraction pointée
  • V X ? Y --gt vi max (xi - yi, 0)
  • Complémentaire
  • V C(X) --gt vi (1 - xi/c) c

Opérations ensemblistes
29
Autres distancesDistance dintensité
  • Intensité (norme) du ptt non normé
  • 0 ? ?(? (X ? Y)) ? 1 si x y 1
  • DI(X, Y) acos(?(? X ? Y))
  • DI(X, X) 0 et DI(X, 0) ?/2
  • DI(moineau, moineau) 0 (DA 0)
  • DI(moineau, passereau) 0.25 (DA 0.4)
  • DI(moineau, oiseau) 0.58 (DA 0.7)
  • DI(moineau, train) 0.89 (DA 1.14)
  • DI(moineau, insecte) 0.50 (DA 0.62)

30
Autres distancesDistance de profil et
généralisation
  • Profil Dp Comparaison de la forme des vecteurs
  • (sans tenir compte de la magnitude)
  • Généralisation DG magnitude profil


V
Dp(V,V ) 0
DG(X,Y) ?DA(X,Y) (? -1)DP(X,Y)
31
Fonction Lexicale vectorielleSynonymie relative
  • SynR(A, B, C) C est laxe de projection
  • Rappel ?(A, B) A?(A?B)
  • SynR(A, B, C) DA(?(A, C) , ?(B, C))
  • DA(charbon,nuit) 0.9
  • SynR(charbon, nuit, couleur) 0.4
  • SynR(charbon, nuit, noir) 0.35

32
Synonymie relative
  • SynR(A, B, C) SynR(B, A, C)
  • SynR(A, A, C) DA(A?(A?C), A?(A?C)) 0
  • SynR(A, B, 0) DA(A, B)
  • SynR(A, B, 1) DA(A, B)
  • SynR(A, 0, C) ? /2
  • SynR(A, B, A) DA(A?(A?A), B?(B?A))
  • DA(A, B?(B?A))

33
Analyse  sémantique 
  • Propagation de vecteurs sur larbre
  • (danalyse morpho-syntaxique Application
    SYGMART J. Chauché)

P
GVA
GN
Les
rapidement
GV
termites
GNP
attaquent
les
fermes
GN
du
toit
Les termites attaquent les fermes du toit
rapidement
68
34
Analyse sémantique
P
GVA
GN
Les
rapidement
GV
termites
GNP
attaquent
fermes
les
GN
agresser commencer critiquer
toit
du
Exploitation agricole bâtiment Élément de
charpente
(dune) maison Terme d anatomie au-dessus
35
Analyse sémantique
  • Initialisation
  • les vecteurs sont attachés aux cerises
  • puis propagés aux termes

P
GVA
GN
Les
rapidement
GV
termites
?1
?5
GNP
attaquent
?2
les
fermes
GN
?3
du
toit
poids
?4
1
1
1
1
1
1
1
1
1
36
Analyse sémantique
  • Propagation vers le haut (montée)
  • ?(Ni ) ?(Ni 1) ? ? ?(Ni k)

P
GVA
GN
Les
rapidement
GV
termites
GNP
attaquent
les
fermes
GN
du
toit
37
Analyse sémantique
  • Descente contextualisation faible
  • ?(Ni j) ?(Ni j, Ni ) ?(Ni j) ? (?(Ni j) ?
    ?(Ni))

P
GVA
GN
Les
rapidement
GV
termites
  • ?1
  • ?5

GNP
attaquent
  • ?2

les
fermes
GN
  • ?3

du
toit
0.1
0.8
0.1
  • ?4

Contextualisation forte
0.5
0.3
0.2
0.2
0.1
0.7
38
Analyse sémantique
  • Pondération/sélection de sens

P
GVA
GN
GV
Les
rapidement
termites
GNP
attaquent
les
fermes
GN
commencer ? attaquer critiquer
du
toit
exploitation bâtiment ? élément de charpente
? d une maison anatomie au-dessus
39
Schémas syntaxiques
  • S NP(ART,N)
  • ? ?(NP) V(N)
  • S NP1(NP2,N)
  • ? ?(NP1) ? ?(NP1) ? ?(N) 0lt?lt1
  • ?(bateau à voile) ?(bateau) ? 1/2 ?(voile)
  • ?(voile de bateau) ?(voile) ? 1/2 ?(bateau)

Où est la tête (gouverneur) ?
40
Iteration et convergence
  • convergence ?
  • (ou nb de cycles max)
  • Local
  • D(?i, ?i1) ? ? pour ? racine
  • Global
  • D(?i, ?i1) ? ? pour tout ?

Local Bons résultats et rapide
Global Meilleurs résultats mais coûteux et
converge rarement (oscillations)
41
Construction et affinage de la base de VC
Définitions
Dico à usage humain (multisources)
Base de Vecteurs Conceptuels
SYGMART
Analyse morphosyntaxique (Sygmart)
42
Construction et affinage de la base de VC
  • Noyau manuel (nécessaire pour lamorçage)
  • Analyses de définitions (dico, encyclo, etc. en
    ligne et hors ligne)
  • Boucle infinie --gt apprentissage permanent
  • Supervision --gt ajustements manuels(nouvelles
    def, plus précises, moins ambiguës, etc.)

synonymes
Mots inconnus des définitions
itérations
noyau
43
charançon n (un) petit insecte qui détruit les
grains .
PH
VPH
NP
REL
PUNCT
VVREL ??(VREL ,VPH )
VV1 ?2V2
ART
VP
ANP
PR
GN
ADJ
N
V
N
ART
GOV
un
petit
insecte
détruit
qui
.
grains
les
V1
V3
V4
V2 V2,1 ? V2.2
44
charançon n (un) petit insecte qui détruit le
grain .
PH
VPH
NP
REL
PUNCT
VVREL ??(VREL ,VPH )
Analyse partielle
VV1 ?2V2
ART
VP
ANP
PR
GN
ADJ
N
V
N
ART
GOV
un
petit
insecte
détruit
qui
.
grains
les
Mot inconnu
V1
V3
V4 0
V2 V2,1 ? V2.2
45
Mot inconnu
V4 0
46
ÉmergenceExpérience EMER873
Pas de thésaurus - pas de noyau On fixe juste la
dimension de E (la taille des vecteurs)
Mot inconnu
On tire le vecteur au hasard
V4 0
On révisera au moment de lapprentissage de ce mot
Amplification pour éviter une convergence
globale vers le vecteur 1 (effet bouillie)
47
Espace T
Maille fixe - densité lexicale variable
48
Espace E
Maille variable - densité lexicale plus ou moins
constante
49
Points de test 1/2
Les n vecteurs booléens (dans TH873 et EMER873
on a n 873)
Écart type de la densité lexicale (test 1)
ET(DL(E)) lt ET(DL(T))
50
Points de test 2/2
Les p premiers termes en fréquence dusage
(dans TH873 et EMER873 on a p 1000)
Écart type de la densité lexicale (test 2)
ET(DL(E)) lt ET(DL(T))
51
Construction de taxonomies
  • Fonctions lexicales
  • Hyperonymes/hyponymes (is-a)
  • Holonymes/méronymes (part-of)
  • Synonymes - Antonymes (agents à apprentissage D.
    Schwab)
  • Cause/effet ???
  • Combinaison
  • Extractions lexicales (classique)
  • Vecteurs conceptuels (pour la sélection des
    acceptions des termes)
  • Jouer à la fois au niveau des termes - du sens
    - des relations
  • Problématique de fond distinguer des sens par
    affinage successifs

52
Pierre précieuse
Gemme/pierre précieuse
Gemme/bourgeon
Gemme/résine
v
v
v

béryl
Plus proche vecteur
Émeraude/pierre précieuse
Émeraude/béryl
Émeraude/gemme
v
v
v
Pierre précieuse
Gemme/pierre précieuse
Gemme/bourgeon
Gemme/résine
v
v
v

béryl
Émeraude/pierre précieuse
Émeraude/béryl
Émeraude/gemme
v
v
v
53
Pierre précieuse
0.9
Gemme/pierre précieuse
Gemme/bourgeon
Gemme/résine
0.81

béryl
0.7
0.85
Émeraude/pierre précieuse
Émeraude/béryl
Émeraude/vert
Émeraude/couleur
Pierre précieuse

Couleur/matière
Couleur/sensation
0.9
Gemme/pierre précieuse

Vert/couleur des signaux
Vert/couleur
0.81
béryl
0.85
Émeraude/vert
Émeraude/béryl
54
Moyen de transport
artefact
hypo
aliment
animal
véhicule/Moyen de transport
véhicule/vecteur
nourriture
wagon
automobile
Cheval/moyen de transport
Viande/nourriture
hypo
Voiture/wagon
mammifère
hypo
Voiture/automobile
Cheval/viande
Cheval/mammifère
Cheval/unité de puissance
55
Comparaisonentre les deux approches
  • Émergence
  • discrimination
  • utilisation des ressources
  • - évaluation par voisinage uniquement
  • pas besoin de thésaurus
  • ? Reconstitution du (dun) thésaurus ? au moins
    partiellement
  • Thésaurus
  • - discrimination
  • - utilisation des ressources
  • évaluation par inspection ou par voisinage

Concepts utiles
Concepts pertinents
Il faut coupler lanalyse par définitions et
lanalyse par corpus Analyses intentionnelle
(def), extentionnelle (ex), distributionelle
(corpus)
56
Conclusion
  • Emergence
  • Vecteurs (fort rappel)
  • Taxonomies (forte précision)
  • Apprentissage permanent
  • Différent dun entraînement
  • Multi-sources
  • Termes - Lexies - Acceptions
  • Amas de lexies nommage réinjection
  • Bouclages (cf Ch. Lecerf sur la Double boucle)
  • Expérience en cours avec une dim 5000

57
Fin
1. extremité 2. mort 3. but
Write a Comment
User Comments (0)
About PowerShow.com