Title: Cours sur le traitement automatique des langues La s
1Cours sur le traitement automatique des
languesLa sémantique (III)
- Violaine Prince
- Université de Montpellier 2
- LIRMM-CNRS
2Éléments
- Origines du modèle vectoriel
- Le modèle de Salton
- Applications et limites en RI
- Le modèle à famille génératrice
- L hypothèse du noyau
- Les vecteurs sémantiques
- Les vecteurs conceptuels (introduction brève)
3Introduction
- Les modèles numériques
- La limite des représentations logiques
- Vérification de cohérence versus calcul du sens
- Modèles calculatoires
- Logiques multi-valuées
- Réseaux de neurones
- Logique floue
- Modèle vectoriel
4Présentation brève
- Logique multi-valuée
- Quelques valeurs (nombre fini et petit)
- Tables de définition des opérateurs
- Réseaux de neurones formels
- Plusieurs cellules (nombre élevé)
- Fonction de couplage
- Logique floue
- Espace de valeurs continu
- Fonction de  fitnessÂ
5Modèle vectoriel
- Tout mot se représente par un vecteur
- Composantes éléments sur lesquels le mot est
projeté gt différemment définis - Valeurs  poids de la composante dans la
constitution du sens du mot
A1 A2 . .. An
Où les ai sont les valeurs De la projection de V
sur des composantes
M
V
6Propriétés du modèle
- Règles de composition interne
- Somme de vecteurs permet de représenter
l union des  sens des mots correspondants - gt On peut représenter le vecteur d un ensemble
de mots, i.e, on peut calculer le sens d un
syntagme, d une phrase, d un texte. - Produit scalaire de vecteurs permet de
représenter 2 choses - l intersection des  sens des mots
correspondants
7Propriétés (suite)
- Règles de composition interne
- Produit scalaire de vecteurs
- Co-occurrence de termes (M1, M2)
- gt on peut calculer M1 et M2 (au sens logique)
- Différence de vecteurs (soustraction)
- La divergence sémantique entre des éléments
- Peut ne pas avoir de correspondant.
- Vecteur nul 0
- Neutre pour l addition
8Propriétés (suite)
- Vecteur nul
- Absorbant pour le produit scalaire
- Ne correspond à rien linguistiquement.
- Vecteurs négatifs
- Si V est le vecteur de M, -V n est PAS le
vecteur de l antonyme de M - Les vecteurs négatifs n étant pas
interprétables, on considère toujours la valeur
absolue. - Règle de composition externe
- Produit ?V où ? est un réel  renforcement du
poids de V.
9Fonctions et distances
- Barycentre et vecteurs moyens pondérés
- V V1? V2 ?... ? Vn est le vecteur barycentre des
vecteurs V1, V2,, Vn. - V?1V1 ? ?2V2 ?... ? ?nVn où les ?i sont des
scalaires est un vecteur moyen pondéré, chaque
vecteur Vi pesant ?i. - gt important pour calculer, par exemple, le sens
d un groupe nominal prépositionnel -  voile de bateau  voile est le gouverneur
-  bateau à voile  bateau est le gouverneur
10Fonctions et distances
- Distance entre deux vecteurs
- Il existe plusieurs sortes de distance
- Distance angulaire
V1
Angle ?
V2
Si
0 alors V1
?
V2, les  sens des éléments sont très proches
11Angles de vecteurs
Vecteurs orthogonaux  sens totalement
divergents
V1
V2
V1
Les vecteurs étant toujours Interprétés dans le
quart Positif de l espace, c est ?- (V1,V2)
qui est considéré.
V2
?
On prend toujours l angle modulo (0, ?/2)
12Norme et  similaritéÂ
- Vecteurs barycentres ou vecteurs moyens pondérés
normés - Valeurs des projections sur les composantes
comprises entre 0 et 1. - Somme normée VV1?V2 / ai(ai1ai2)/ ??V ??
- Similarité (Salton)
- Sim(A,B)cos(A,B) A . B/ ??A ??x ??B ??
13Origine du modèle vectoriel
- Modèle de Salton (1968)
- Informatique documentaire
- Comment classer des documents (indexation)
- Comment retrouver des documents (recherche
d information) - En fonction des mots qu ils contiennent
Fréquence d occurrence
14Importance des mots
- Hypothèse de Salton
- La fréquence d apparition d un terme en
langage naturel est liée à son pouvoir de
représentation du contenu de ce texte. - Indexation automatique
- Analyse lexicale des documents et extraction des
termes significatifs de leur contenu (1) - Pondération des termes pour déterminer leur degré
de représentativité (2).
15Extraction des termes représentatifs
- Méthode
- Lemmatiser le texte
- Récupérer les lemmes -gt lexies de dictionnaires
- Eliminer les lexies dont la catégorie est
fonctionnelle prépositions, conjonction,
déterminants, pronoms, etc. - Sur le reste essentiellement les noms communs,
les adjectifs, les verbes et les adverbes.
16Extraction des termes représentatifs
- Séparer
- Catégories  nobles noms et verbes
- Catégories auxiliaires adjectifs et adverbes gt
retriés (épithète, attributs, adverbes de temps
et de lieu). - Enlever les mots ordinaires et athématiques (mots
d usage courant). - Par complémentarité, les termes significatifs
sont conservés et représentent le document BASE
DU DOCUMENT
17Pondération des termes
- Dans la base d un document Dk, on calcule la
fréquence d occurrence tfki d un terme ti . - La pondération fournie par Salton (1990)pour
désigner l importance discriminatoire et
sémantique de ce terme est la suivante - Wki (log(tfki) 1)/ ?(?k1N(log(tfki) 1))
- N est le nombre total de documents considérés.
- Quand il s agit d un document unique le poids
est de 1.
18Le modèle vectoriel de Salton
- Une base d indexation B extraite comme indiqué
précédemmentUne requête Q Q est un ensemble de
termes tqi (dans laquelle on a fait le même
traitement que sur B) - Salton pose l hypothèse que
- On peut représenter chacun des termes de B par un
vecteur - B forme la base d un espace vectoriel.
19Le modèle vectoriel de Salton
- B, base de termes t1B, t2B, , tnB
- A chaque tiB on associe un vecteur ViB de
dimension n, tel que ViB (0 01..0) La
ième composante du vecteur vaut 1, et 0 sinon. - V1B, V2B, ,VnB engendre un espace vectoriel B.
Le système V1B, V2B, ,VnB est libre, c est
donc une base.
20Le modèle vectoriel de Salton
- Soit Dj un document sur lequel on veut faire une
requête Q . - Dans l espace B, Dj est représenté par un
vecteur Dj (dj1, dj2,,djn) où chacun des
éléments correspond au poids du terme tiB de la
base B (et donc le poids de la composante
vectorielle ViB dans B). Ce poids est calculé
selon la formule précédente (en fonction de la
fréquence d occurrence du terme tiB dans Dj).
21Le modèle vectoriel de Salton
- De la même manière on considère que Q est
représenté dans l espace B par un vecteur - Q (q1,q2,qn) où qi est le poids du terme tiB
(de la base) dans la requête Q. - L appariement de la requête et du document se
fait par le calcul de la similarité entre les
vecteurs Q et Dj qui est donnée par la formule du
cosinus (produit scalaire des vecteurs
normalisés).
22Particularités du modèle vectoriel de Salton
- Une base par  collection de documentsÂ
- La dimension peut varier
- Les composantes peuvent varier
- Base vraie
- Représentation d un document par un vecteur
unique - Les poids des termes varient en fonction de
l état de la collection de documents gt Ã
recalculer entièrement pour tout nouveau document
23Particularités du modèle vectoriel de Salton
- Les termes qui ne sont pas dans la base ne sont
pas représentés - Les mesures permettent de constater la pertinence
d un document par rapport à une requête et donc
il s agit d une mesure de pertinence pas d une
mesure de proximité thématique. - Le modèle de Salton a une base vectorielle
booléenne sur le critère présent/absent.
24Modèle de Salton en langage naturel
- Représentations de la sémantique du langage
naturel - La non représentation de tous les termes de la
langue est un problème. - gt Une base avec les 70000 mots d un
dictionnaire ? - Sinon que choisit-on comme base ?
- Le nombre de productions en langue (discours) est
infini N -gt?. Comment calcule t-on les poids ?
De plus, il est inaccessible.
25Modèle de Salton en langage naturel
- Représentations de la sémantique du langage
naturel - La pertinence par co-occurrence de termes n est
pas le problème de la sémantiqueproximité
thématique entre tiB et t(i1)B? . - Une requête est appariée avec un document
contenant les mêmes termes qu elle. Comment
l apparier avec un document comprenant des
termes synonymes ? gt fonctions lexicales.
26Modèle de Salton en langage naturel
- La syntaxe et la sémantique en langage naturel ne
sont pas indépendantes. - La voile du bateau et le bateau à voile donnent
la même requête Qvoile, bateau bateau,
voile - Les fonctions syntaxiques analytiques donnent des
informations importantes sur le rôle sémantique
(casuel) des portions de textes. - Un sujet et un complément de manière n ont pas
le même poids dans un texte.
27En conclusion sur le modèle de Salton
- Hors recherche d information
- Le modèle de Salton est impropre à la
représentation de la sémantique du langage
naturel, de manière générale. - Mais le modèle algébrique vectoriel peut être
conservé moyennant de pallier les défauts
observés.
28Le modèle à famille génératrice
- Démarche
- Il faut trouver une famille de termes en nombre
relativement faible telle que - Elle puisse servir de base d index à tous les
autres termes de la langue - On représente ces termes sous forme de vecteurs
(booléens) - La famille de ces vecteurs est génératrice et
engendre un espace vectoriel L pour la langue.
29Le modèle à famille génératrice
- Hypothèse du noyau
- Certains termes sont à la fois termes, concepts
et concepts générateurs.Ils ont une capacité
élevée à engendrer les autres. - Linguistique les universaux
- Sciences sociales hypothèse anthropologique sur
la nature des universaux.
30Le noyau lexicologiquel initiative Roget
- En lexicologie au XIXème siècle, une initiative
a été prise à Oxford de proposer un thésaurus de
la langue anglaise. (P. Roget) - On propose une hiérarchie de concepts.
- On indexe tous les mots par rapport à cette
hiérarchie. - Exemple le terme  vie s indexe sur le
concept  existence , sur le concept  durée ,
sur le concept  animé et est aussi un concept.
31LÂ initiative Roget
- Autres exemples
- Le terme  papillon n est pas un concept de la
hiérarchie.Il est indexé sur  animal ,
 insecte ,  beauté ,  légèreté . - Indexer un terme par rapport à un concept
signifie considérer que le concept participe au
sens de ce terme.
.
32LÂ initiative Roget
- Les concepts étant eux aussi des termes ils
s indexent les uns par rapport aux autres. - Dans le thésaurus Roget, la hiérarchie présentée
comprend environ 1000 concepts, hiérarchisés en 6
niveaux, du plus général au plus particulier.
.
33Le thésaurus Larousse
- 100 ans plus tard, les lexicologues produisant le
dictionnaire Larousse ont cherché à dupliquer
l initiative Roget pour le Français. - Ils ont produit une hiérarchie à 873 concepts en
4 niveaux, et ont indexé tous les mots hors
emprunts, noms d unités ou noms spécifiques
présents dans le dictionnaire Larousse.
.
34Les vecteurs sémantiques
- En 1990 Chauché propose une utilisation du
thésaurus Larousse dans un modèle vectoriel de
représentation de la sémantique. - Les vecteurs de la hiérarchie (les 873) sont la
famille génératrice G d un espace vectoriel F
pour le Français. - Chaque vecteur Ci de G représente le concept Ci
de la hiérarchie et s écrit de la manière
suivante
.
35Les vecteurs sémantiques
- Ci (c1i, c2i,, c873i) où cji 1 si le concept
Ci s indexe sur le concept Cj de la hiérarchie,
et il vaut 0 sinon. En particulier Cii 1. - Exemple on mettra des 1 pour le concept de
 vie sur les composantes suivantes le
vecteur de  existence , le vecteur de
 durée , le vecteur de  animé et le vecteur
de  vie .
.
36Les vecteurs sémantiques
- On norme ensuite Ci pour que ?cij 1
- Remarque la famille G n est pas libre puisque
les concepts s indexent les uns par rapport aux
autres. G n est pas une base à proprement
parler. SÂ il existe une famille libre Fl telle
que Fl soit génératrice de F alors - Fl serait une vraie base de F
- Dimension de F lt873.
- On ne sait pas trouver Fl !!!
.
37Les vecteurs sémantiques
- On fait l hypothèse que L est un espace
vectoriel dans lequel on peut définir une
distance euclidienne. - Les lois de composition interne et externe sont
définies (voir début). - Tout terme t de la langue se projette sur G et se
voit calculer son vecteur - T (t1, t2,,t873) avec ti 1 si Ci indexe t, et
ti 0 sinon. Puis ce vecteur est normé.
.
38Les vecteurs sémantiques
- Grâce aux lois de composition interne et externe,
on peut calculer les vecteurs de segments
(comprenant plusieurs termes). - En tenant compte des marqueurs syntaxiques
- Et des rôles syntaxiques et sémantiques dans la
phrase.
.
39Exemple
- Sur un groupe nominal prépositionnel N1 prep
N2. - Le moulin à vent.
- Analyse syntaxique
GPREP
SN
SN
PREP
N
N
Ã
DET
vent
Le
moulin
40Calcul d un vecteur de groupe
- La structure syntaxique donne
- Un rôle de gouverneur pour  moulin gt poids de
moulin 2. - La structure (det, N, à  , N) indique un rôle de
complément circonstanciel pour le deuxième
élément. gt poids de  vent 0, 5. - On calcule le vecteur du groupe par
- V(groupe(moulin à vent)) 2V(moulin)?0,5 V
(vent) puis V(groupe (moulin à vent)) est normé.
41Calcul d un vecteur de phrase
- On commence par calculer le vecteur de chaque
groupe, puis on calcule le vecteur moyen pondéré
de la phrase en fonction de l importance des
rôles syntaxiques. - Exemple
- Je mange une pomme verte.
42V(PH) 8 V(g) ? 10 V(b) ? 6 V(a)
PH
GN
GV
SV
GA
SN
A
GN
V
PRP
b
manger
SN
g
Je
vert
V(g) V(soi)
DET
N
V(b) V(manger)
pomme
un
a
V(a) 2V(pomme)?0,5V(vert)
43Segments d ordre supérieur
- Le vecteur d un ensemble de phrases (paragraphe,
texte) est le barycentre des vecteurs de phrases. - Si T PH1, PH2, , PHn
- Alors T V(PH1) ?V(PH2) ? ? V(PHn)
- De la même manière, si D est un ensemble de
textes - D T1, T2, , Tm alors D T1 ?T2 ? ?Tm.
44Effets de macro-structuration
- On peut, dans un texte, ou dans un ensemble de
textes, tenir compte d un effet  d accrocheÂ
sémantique (ou non) d un sous-ensemble par
rapport à un autre en substituant au vecteur
barycentre un vecteur moyen pondéré. - Exemple l introduction d un article est un
sous-texte pour lequel on peut estimer que son
vecteur  pèse plus que celui d un sous-texte
quelconque du corps de l article. gt
catégorisation d un genre donné de documents.
45Les vecteurs conceptuels
- Variante du cas précédent.
- Proposé par M. Lafourcade.
- Divergence au lieu d avoir un vecteur booléen
issu seulement du thésaurus, on modifie tout
vecteur de terme t (et de concept) par le vecteur
de texte T où T est l ensemble des définitions
de t.
46Les vecteurs conceptuels
- Soit t(init) le vecteur d un terme t défini
précédemment. - Dans des dictionnaires en ligne, t a un certain
nombre de définitions. Ces définitions forment un
texte. - Soit T le texte des définitions de t. Le vecteur
T est calculé à partir de l analyse syntaxique
de T et comme un vecteur moyen pondéré, où les
pondérations tiennent compte des rôles dans une
définition.
47Les vecteurs conceptuels
- Exemple
- Transmuter
- (def 1) action de transformer un matériau en un
autre. - Transformer est plus important que  actionÂ
alors que la forme  N1 prep V(inf) a tendance
à favoriser N1 par rapport à tout autre élément
après la préposition.
48Les vecteurs conceptuels
- t t ?T (fonction  générique ).
- A la première occurrence, t vaut t(init), vecteur
initial.Puis à chaque fois que les textes de
définition sont modifiés, le vecteur t se
modifie. - Par ailleurs, la hiérarchie du thésaurus est
elle-même modulée au lieu d avoir les vecteurs
Ci définis comme précédemment, - Ci Ci (init) ?jajCj où les ai représentent
des poids issus de la distance ultramétrique dans
l arborescence.
49Divergences
- Remarques
- Le vecteur de terme et le vecteur de concept,
pour un même mot qui se décline dans les deux, ne
sont pas confondus dans le modèle des vecteurs
conceptuels. - Le vecteur du terme t vie est distingué du
vecteur du concept (c4 vie) - Alors qu ils le sont dans le modèle des vecteurs
sémantiques.
50Divergences
- Les vecteurs de terme sont en évolution
permanente dans le MVC et sont statique dans le
MVS. - De nouveaux termes peuvent être représentés par
calcul de définition dans le MVC, alors que ce
n est pas le cas dans le MVS.
51Divergences
- En revanche, les vecteurs de MVS, bien que plus
pauvres, sont beaucoup plus discriminants - Les vecteurs calculés par  apprentissage sur
des sources textes sont très denses. - Ils sont aussi moins bruités
- La qualité des sources d apprentissage peut
entraîner une surabondance d information.
52La qualification par l application
- En réalité, tout dépend de ce à quoi on veut
appliquer ces modèles - En catégorisation pure, MVS est probablement plus
sûr (précision) mais peu prolixe(silence, faible
rappel) - En découverte thématique, explication MVC est
plus riche (bruit mais très bon rappel).
53les avantages des modèles vectoriels de la
sémantique
- LÂ espace L est beaucoup plus grand que
l ensemble des mots connus, ce qui fait que
l on peut y trouver des vecteurs de segments de
toutes tailles. - La sémantique y est cohérente chaque fois qu un
texte est analysable, alors on peut lui trouver
un sens. - On peut inventer de nouveaux mots, il suffit
d être capable de les indexer ou d en donner
des définitions.
54En conclusion
- Les modèles vectoriels expriment l aspect
relationnel de la sémantique chaque mot est
défini par d autres et se relie à d autres. - C est le contraire d un aspect  essentielÂ
ce n est pas ce qu est un  mot en
soi (définition ontologique). - Le vecteur ne capture que la relation, pas
l essence(monde), et le calcul du sens se fait
par des fonctions sur des relations évaluées.
55En conclusion
- Les problèmes que l on se pose sont
- L espace L apparaît comme étant de densité très
hétérogène. Pourquoi ? - Que se passe-t-il sur les très petites distances
entre les vecteurs ? Comment discriminer plus
finement ? gt la base de 873 ne représente-t-elle
pas des fois un maillage  trop faible ? - La hiérarchie du thésaurus Larousse est donnée et
c est sur elle que s appuie le reste. Peut-on
la retrouver comme un résultat de calcul ?
Sinon,peut-on calculer une base ? Et comment?