Title: Cours sur le traitement automatique des langues : La s
1Cours sur le traitement automatique des langues
La sémantique (1b)
- Violaine Prince
- Université de Montpellier 2
- LIRMM-CNRS
2Plan de lexposé
- Classement des approches sémantiques
- Par granularité
- Par paradigme
- Sémantique vectorielle un modèle
trans-granularité - Conclusion et perspectives
3Classement des approches sémantiques
- La notion de granularité
- Taille du segment interprétable.
- Sublexical (les sèmes)
- Lexical (le mot)
- Syntagmatique (syntagmes/groupes)
- Phrastique (phrase/proposition)
- Textuel (ensemble de phrases)
- Document (texte complet)
- Collection
4Les granularités définies
- Le niveau sublexical est peu décrit
- Théories linguistiques de type sémantique
structurale (Pottier, Greimas) - Travaux informatiques
- M. Gross constitution de dictionnaires (Intex/
Sylberstein) - Informatisation des travaux de F. Rastier (P
Beust)
5Sémantique structurale
- Ecole Française de Bernard Pottier et ses élèves
(Greimas, Rastier) - Le mot est un  ensemble de  sèmes ou signes
de sens. - La structuration sémantique est une
 superstructure de la structuration sémique. - Deux unités sont différenciées le sème (signe)
et le sémantème (unité de sens)
6Représentation sémantique structurale
- Une  partie du mot  pompeÂ
1.
appareil
aspiration liquide
2.
appareil à essence
les propriétés de lessence
3.
essence pour véhicule
lieu consacré à la vente
station dessence
4.
entreprise
7- Le niveau lexical (sémantique lexicale) est très
riche. - Mots ou groupes de mots inséparables.
- Exemples
- Pomme
- Pomme-de-terre
- Sert de base aux dictionnaires
- Plusieurs paradigmes défrichent ce niveau.
8- Niveau syntagmatique/groupe les sémantiques
n-grammes (bi ou trigrammes) - Expression syntagmatique nominale
- N1 de N2 (B. Habert)
- Moulin à café (quasi-lexicalisé)
- Médecin de famille
- Fleur des champs, fleur de pommier
- Peu de travaux sur les groupes verbaux (sauf en
anglais en raison des suffixes) - En gros, des sémantiques de type  opérationnelÂ
à base fréquentielle (Zipf, Harris)
9- Le niveau propositionnel est le domaine
privilégié des modèles sémantiques logiques. - La proposition est  complète en termes de sens
- Elle est évaluable
- Lévaluation se fait après décomposition (en
éléments constitutifs) et recomposition du sens - Le rapport entre phrase et proposition nest pas
toujours très clair (la majorité des exemples de
phrases sont des propositions). - Les expressions figées lexicalisation (E.
Laporte). - Balayer devant sa porte.
- Tourner autour du pot (to beat around the bush).
10- Le niveau textuel sémantique commence à se
confondre avec le niveau thématique. - Un texte un énoncé un ensemble de phrase.
- Nest pas une unité  complèteÂ
- Possède un  thème (ou plusieurs)
- De quoi parle le texte ?
11- Travaux sur les liens entre phrases
(inter-phrastiques). - Anaphore pronominale attachement
syntaxe-sémantique.. Parfois fondé sur des
connaissances extra-sémantiques. - Le médecin est venu voir Pierre. Il avait 39 de
fièvre. - Le médecin est venu voir Pierre. Il avait une
sacoche noire bourrée. - Le médecin est venu voir Pierre. Il est arrivé
une heure et demie après notre appel. - Le médecin est venu voir Pierre. Il était
enrhumé.
12- Travaux de Grosz et Sidner (1986) Â focus and
attention - Lattachement pronominal se fait majoritairement
avec le dernier nom de même genre et nombre. - Le médecin est venu voir Pierre. Il avait 39 de
fièvre - (1/4 exact)
- Sinon, il dépend du  thème général du texte.
- Thème médecin personne spécialiste, faisant des
visites, Ã lappel des malades, portant une
sacoche. - Le médecin est venu voir Pierre. Il avait une
sacoche noire bourrée. - Le médecin est venu voir Pierre. Il est arrivé
une heure et demie après notre appel. - 2/4 exact.
13- Thème  Pierre est maladeÂ
- Il a de la fièvre, il est enrhumé.
- Le médecin est venu voir Pierre. Il avait 39 de
fièvre - Le médecin est venu voir Pierre. Il était
enrhumé. - 2/4 exact.
- Double thème le médecin et Pierre est malade.
- Les quatre énoncés sont interprétables
- Cependant, le médecin peut-être lui aussi
enrhumé.
14- Les anaphores nominales la relation de
synonymie ou de proximité sémantique lexicale. - Pierre est allé voir un ophtalmologiste. Le
spécialiste lui a donné une ordonnance pour une
nouvelle paire de lunettes. - Quavez-vous fait à Marie-Hélène ? Cette femme
narrête pas de téléphoner.
15- Dès lors quon dépasse en granularité le niveau
propositionnel, des  niveaux danalyse autres
que sémantiques semblent être sollicités. - Trois dimensions semblent co-exister et
interagir - La syntaxe (règles de composition)
- La sémantique (règles de pré-interprétation)
- La pragmatique (stratégies dinterprétation gt
opérer des choix dans les pré-interprétations
sémantiques)
16- Au niveau du document
- On passe complètement dans des structures
danalyse ou de représentation  stylistiquesÂ
ou de contenu. - Les travaux informatiques sur le document ne
concernent que - Sa structuration (formalisée ou pas)
- Ses liens (hypertextes)
- Sa pertinence par rapport à une requête
(recherche dinformation) - Sa thématique représentable par des mots clés
(indexation) - Sa catégorisation (par rapport à un thème fourni)
- Sa classification (par rapport à un thème, une
collection ou un autre document)
17- La collection complètement dans une vision
thématique - Collection de textes
- Collection douvrages qui sont eux-mêmes des
collections de texte - Les travaux informatiques sont ceux de la
recherche documentaire (Salton et dérivés).
18Conclusion sur la notion de granularité
- La sémantique sefface avec laugmentation de la
granularité, graduellement, au profit de la
thématique. - La sémantique apparaît plus non pas comme un
choix univoque dinterprétation (fonction) que
comme un choix ensembliste (application dun
élément vers une partie densemble). On parle
plutôt de  champ sémantique .
19- En réalité, la sémantique est un mécanisme de
comparaison beaucoup quun mécanisme
daffectation de valeur. - Au niveau sublexical pompe  procheÂ
dappareil, dappareil à essence, de station,
dentreprise proche aussi daspiration (appareil
aspirant) dair(fusil à pompe), de mouvement haut
et bas (faire des pompes).
20- Au niveau lexical quel terme exact choisir pour
remplacer  pompe - Au niveau syntagme/groupe savoir si le syntagme
à un sens différent de la composition des sens
des constituants. - Composition non commutative
- Voile de Bateau différent de Bateau à voile
- Valeur des moyennes différent de moyenne des
valeurs
21- Composition souvent non intègre
- Moulin à paroles -gt bavard
- Pomme-de-terre -gt rien à voir avec la pomme et la
terre - Les formalismes n-grammes ne conservent pas
toujours la nature même du lien
22- Au niveau propositionnel
- Lévaluation à la valeur de vérité nest
absolument pas pertinente. - Une phrase est interprétée linguistiquement si on
en reconnaît le thème et on sait lassocier à des
objets du monde (interprétation extra-sémantique) - Une phrase est interprétée informatiquement si et
seulement si elle est transcrite dans un
formalisme sans perte dinformation intrinsèque,
qui conserve ses relations de proximité et son
appartenance thématique.
23Langue
référent objet linguistique
objet référé objet du monde
référé objet mental
monde
individu
triangle aristotélicien
- Linterprétation linguistique associe
- pour un individu donné
- Un référent donné (objet linguistique)
- À un objet du monde
24- L  interprétation informatique associe,
- pour un objet linguistique donné
- - un objet mathématique
- Calculable par une machine
-
Interprétable Par un individu Et
représentable Par ce dernier
Langue
Formalisme
.
machine
25- En machine on ne fait que re-présenter et non pas
interpréter - On délègue à la machine le processus de calcul
des similitudes et des proximités (entre énoncés) - Quand il y a de GRANDES MASSES de données
26Les paradigmes (de calcul)
- Le paradigme symbolique logique
- On traduit lénoncé en langue en un énoncé
logique que lon manipule ensuite selon ses
propres lois - Au lieu dinterpréter en valeur de vérité
absolue, on vérifie que lénoncé est valide par
rapport aux  ontologies . - On appelle ontologie une structure de
connaissances qui - Relie des concepts entre eux
- Leur associe des propriétés
- Possède des propriétés exploitables par des
opérateurs
27Exemple ontologie de schémas (Minsky)
- valeurs par défaut pour C1n sous forme
d attribut (facette, valeur)
C11
Schéma de C11
Schéma de C1n-1
C1n-1
Schéma de C1n
lien  is-aÂ
C1n
28Exemple
fait en matière (organique, minérale) type
(naturelle, artificielle) prix origine
composé de pieds (3, 4) dosseret
(oui,non) barreaux ( oui,non) assise matière
meuble
chaise
fauteuil
chaise-Ã -porteur
17ème siècle mode de transport
29- Formalismes dontologies
- Treillis(de Galois)
- Arborescences
- Réseaux (sémantiques)
- Ont du mal a différencier le statut  langue du
statut  formalisme au niveau lexical -  dictionnaires ,  thésaurusÂ
30Les modèles de données
- Les  ontologies arborescentes
- après l échec dune structuration trop
importante et trop large - restriction des années 90
- Ã une application
- à un domaine, de préférence technique et défini
- Ã une structure arborescente
- plusieurs  arbres de connaissance plutôt
qu un seul réseau
31Exemple (1)
- domaine chimie
- application enseignement secondaire de la
chimie atomique - agrégats  partie-deÂ
substance
molécule
atome
particule
32Exemple (2)
- domaine chimie
- application enseignement secondaire de la
chimie atomique - agrégat  sorte-deÂ
particule
particule chargée
particule neutre
proton
électron
neutron
33Propriétés structurelles
- relations typées
- sorte-de selon un critère
- sorte-de inclusion de classe
- sorte-de membre-de
- partie-de
- Les ontologies arborescentes supposent
- un mot un sens
- ce qui correspond qu à un sous-ensemble très
faible du langage naturel
34Les modèles multi-structure
- Les graphes conceptuels (Sowa 1984)
- l idée que l esprit et le langage s organisent
de la même manière (ressemblance des contextes
linguistique et mental) - il existe une représentation en lambda-calcul du
contexte mental - application à la langue
35Graphes conceptuels
- Modèle de données
- Un treillis de concepts
- Un treillis de relations
- Lambda-formules
- Graphe canonique
- Graphe de définition
- Graphe de phrase
36Fonction des modèles symboliques logiques
- Actions  sémantiques réalisées
- Transformer la phrase en LN
- La chaise est bleue
- En sa structure logique (ou sa lambda-expression)
- Chaise (x) ? couleur (x,  bleu )
- Vérifier dans lontologie
- Que chaise existe
- Quelle peut avoir une couleur
- Que la couleur  bleu existe
- Quil nexiste pas de contrainte contre la
couleur bleue pour une chaise
37Limites en LN
- Reste le problème de savoir
- Sil sagit dun exemplaire de chaise répertorié
dans lensemble des connaissances - ? x0 ?X/ chaise(x0) ?couleur(x0,  bleu )
- Sil sagit dun nouvel exemplaire
- ? x chaise(x) ?couleur(x,  bleu ) gt x ?X
- Sil sagit dune assertion concernant la classe
des chaises - ?x ?X chaise(x) gt couleur(x,  bleu )
38- Beaucoup de connaissances à intégrer
- Problème des sens figurés du mot
- jouer aux chaises musicales
- mener une vie de bâton de chaise
- Et de certains de ses dérivés
- ambitionner le fauteuil présidentiel.
- A éviter en recherche dinformation ou indexation
39Autres paradigmes
- Le paradigme symbolique numérique
- Le modèle connexionniste
- Le modèle vectoriel (non saltonien)
- Le paradigme statistique/probabiliste
- Modèle vectoriel de Salton
- La co-occurrence de Church
- Les mesures de similarité ou de similitude
- La sémantique distributionnaliste (Harris)
- Les chaînes de Markov
- Le modèle de Markov caché
40Le modèle connexionniste
- Plusieurs approches connexionistes de la
sémantique - Sémantique Lexicale
- Calculer le sens dun mot en contexte (par
rapport aux autres mots co-occurents). - Un réseau mono ou bi-couche de
- n cellules ayant chacune une variable détat xn
- Des arcs entre ces cellules avec un poids qui
affecte les états des cellules quils relient - Des équations détat pour qui sont des gradiants
dune fonction dénergie F(x,p,t))
grad_x(E(x,p,t)). - Un mécanisme dapprentissage sous forme
déquation de modification de poids/ pL(x,p,t).
41- Les cellules représentent des mots
- Ils sont reliés en fonction de leur présence dans
un contexte donné (fenêtre) - Les poids sont définis initialement.
- Les changements détat interviennent entre un
état initial correspondant à une définition et un
état final correspondant à la position en
contexte dans une phrase donnée. - Le mécanisme dapprentissage recalcule le poids
en fonction de la phrase apprise.
42Modèles connexionnistes en sémantique limites
- Le réseau mono-couche  perd la définition
initiale. - Le réseau bi-couche la conserve et permet de
mesurer la différence entre un sens
 dictionnairique et un sens  en corpus ,
mais il est limité en taille - Les modèles mono-couche risquent de modifier très
fortement les relations entre les mots en
fonction des corpus rencontrés. - On peut  oublier des sens rares
- On peut apprendre de manière biaisée.
43Les modèles vectoriels
- Le modèle vectoriel sera présenté dans le
prochain cours. - Modèle à famille génératrice de taille fixe
(équipe TAL du LIRMM) - Issu du TAL.
- Modèle sémantique.
- Modèle à base de taille variable (modèle de
Salton). - Issu de la recherche documentaire. Problème de la
pertinence dun texte par rapport à une requête - Non TAL
- Non sémantique
44La co-occurrence de Church Formule de
linformation mutuelle (n-grammes)
- Modèle fondé sur des probabilités conditionnelles
- Notion de fréquence dapparition commune entre
des termes. - Si x et y sont tous deux des mots, linformation
mutuelle I(x,y) est donnée par la formule - Où, si N est le nombre total de mots
- p(x) freq(x)/N p(y) freq(y)/N p(x,y)
freq(x,y)/N
I(x,y) log2 p(x,y)/(p(x)p(y))
45- On remarque que plusieurs bi-grammes sont de
fréquence très basse. - Linformation mutuelle a des valeurs exagérémment
élevées pour des bigrammes de basse fréquence ,
cad quelle considère comme associés des termes
qui ne le sont pas tellement. - Formule du maximum de vraisemblance
- log (freq(x,y)/N)/(freq(x)/N)(freq(y)/N)
- Quand on passe aux n-grammes , la fréquence
diminue encore.
46Les mesures de similarité ou de similitude
- Plusieurs mesures existent.
- Elles définissent
- La proximité dun document par rapport à un autre
en fonction des termes quils contiennent - La pertinence thématique dun document par
rapport à un index, un mot-clé, une requête - Elles proviennent dune approche  recherche
documentaire /statistique (vs IA/logique ou
IA/connexionniste)
47Les mesures de similarité ou de similitude
- Produit scalaire (cosinus) ou similarité de
Salton. - Mesure géométrique de type distance  ?cos(d,d)
d.d/(IIdIIxIIdII) - Coefficient de Jaccard
- Mesure ensembliste ou d est lensemble des
unités linguistiques du document d - ?jaccard(d,d) Id?dI/(Id? dI)
- 1- ?jaccard(d,d) vérifie linégalité
triangulaire et donc se comporte comme une
distance.
48La sémantique distributionaliste (Harris)
- En France, travaux de Rajman, Habert, Bonnet
- Ailleurs Grefenstette, Dagan, Sparck
JonesForte corrélation entre les
caractéristiques distributionnelles observables
des mots et leurs sens. - Les contextes apportent suffisamment
dinformation pour un lecteur humain pour être en
mesure daffecter un sens à un mot en contexte. - Lemme Deux unités linguistiques sont
sémantiquement similaires si leurs contextes
textuels sont similaires.
49Approches distributionalistes
- Intégration de matrices de co-occurrence
- Interprétation de profils de co-occurrence
probabilistes (Besançon et Rajman) - P(tiIuj) cij f(tj,ui) / ??kf(tk, ui)
- En dautres termes la probabilité que le sens
porté par le terme tj soit associé à lunité
linguistique ui est aussi le coefficient dans la
matrice de co-occurrence des termes dindexation
avec les contextes (unités linguistiques) du
corpus, cest-à -dire la fréquence doccurrence du
terme par rapport à la somme des fréquences
doccurrences des termes dans cette même unité.
50Exemple
- Le X se comporte de façon individualiste, il a
une grande gueule rose quand il baille, et est
très soucieux de sa toilette. - Les Egyptiens adoraient le X et lui associaient
des qualités de paix du foyer et de miséricorde. - La nuit tous les X sont gris.
X chat
51Les chaînes de Markov
- A eu un impact important dans la statistique
textuelle - Usage de la la probabilité conditionnelle
(n-grammes) de manière différente - Plutôt que d'étudier le rapport entre deux
variables X et Y, on cherche à caractériser la
relation entre les états (symboles) consécutifs
d'une seule variable X. - On parlera alors de probabilité de transition
d'un symbole vers un autre - P(ai-gtaj) P(Xt1 ai ?Xt aj) (probabilité
conditionnelle) - où ai, aj ? A, et Xt représente l'état du
système au temps t.
52- On appelle chaîne de Markov d'ordre 1 le modèle
défini par une matrice de transition P de
composantes - Pij p(ai -gtaj).
- En généralisant, on peut construire des modèles
d'ordre k 1 avec Pij p(w i-gtai) et wi ? Ak. - Conseil
- http//www.unil.ch/Jahia/site/ling/cache/offonce/p
id/12879
53Autres modèles
- Il existe de nombreux modèles mais ils
apparatiennent à une famille. - Famille symbolique logique
- Famille symbolique numérique
- Famille statistique/probabiliste
54Synthèse
- Les modèles symboliques logiques essaient de
représenter le sens par/pour le raisonnement - Les modèles symboliques numériques essaient
dutiliser larithmétique, lalgèbre ou la
géométrie pour représenter le sens par rapport - À dautres sens
- À dautres mots
- Les modèles statistiques ou probabilistes
représentent le sens comme une probabilité ou une
fréquence doccurrence dun motif dans un
contexte.
55Synthèse (fin)
- Les modèles symboliques logiques essaient de
reconstituer artificiellement le triangle
aristotélicien - Les modèles symboliques numériques acceptent
dêtre exclusivement dans une relation
référent(langue)-référent(formalisme) et
considèrent que le référé est approché par le
morphisme M qui dit que - Si x en L est relié à x1,x2,,xn alors rep(x)
dans F est relié à rep(x1),rep(x2),rep(xn) par
une fonction sur F. - Les modèles statistiques/probabilistes ne
travaillent que dans une relation
référent(langue)-référent(langue) où la machine
et les algorithmes servent de support de calcul
sur de grandes masses de données.