Title: Cours sur le traitement automatique des langues La s
1Cours sur le traitement automatique des
languesLa sémantique
- Violaine Prince
- Université de Montpellier 2
- LIRMM-CNRS
2Plan de lexposé
- Introduction
- Les principes
- Les applications
- recherche dinformation
- interprétation de requêtes
- dialogues finalisés
- le contrôle de linterprétation morphosyntaxique
- Conclusion et perspectives
3Introduction
- Qu est-ce que la sémantique ?
- affectation d un (ou plusieurs) sens à des
formes - A quoi sert la sémantique ?
- l utilité dépend du domaine
- Domaines de la sémantique
- linguistique
- logique
- langages
4Définitions de la sémantique (I)
- Autant de définitions que de domaines
- en logique affectation dune interprétation Ã
- un prédicat, une formule, un énoncé
- en logique classique évaluation à vrai, faux
- en logique multivaluée évaluation à une des
valeurs autorisées - en logique floue calcul de la valeur
(numérique) de la fonction de  fitnessÂ
5Exemples (I)
- objet (ballon, rouge) évalué à vrai si et
seulement si - objet(x,y) et  ballon appartient au domaine de
validité de x - et  rouge appartient au domaine de validité de
y - sémantique vériconditionnelle
- ne traite pas du rapport avec le monde
6Exemples (II)
- objet( ballon, rouge) évalué à  inconnu en
logique non monotone - si on n a pas, dans la base, objet(ballon,
rouge), comme une connaissance vraie.
7Définitions de la sémantique (II)
- langages de programmation
- intervient après la vérification morpho-
syntaxique - la sémantique est réalisée par le compilateur ou
l interpréteur - interpréter une instruction revient Ã
- vérifier les contraintes d intégrité
- produire un exécutable
8Définitions de la sémantique (III)
- linguistique il existe plusieurs définitions
- ordonner les significations d un mot (sens du
dictionnaire) - exemple pompe
- 1. appareil permettant l aspiration dun
liquide, ex  une pompe de relevage - 2. par extension de 1, dispositif de fourniture
d essence pour automobile ,  la pompe Ã
essence - 3. par extension de 2, représente les propriétés
de l essence,  le prix à la pompe  - 4. par extension de 2, représente le lieu de
fourniture d essence ,  il y a une pompe pas
loin  .
9- mais aussi ,
- 5.faste, luxe ,  cérémonie en grande pompeÂ
- 6. (familier) chaussures  des pompes en
simili-crocodile . - 7. Exercice physique, parfois d aspect punitif
 vous me ferez 100 pompes - retrouver le (ou les sens) en contexte
- Je me suis arrêté à la première pompe que j ai
pu trouver. Jen ai profité pour nettoyer au jet
mes pompes boueuses, dautant plus que je devais
assister ensuite à une cérémonie en grande pompe
à la mairie.
10Quest-ce quun contexte ?
- En linguistique
- groupe de mots
- phrase
- paragraphe
- texte
- mais aussi
- le sous-ensemble des hypothèses de lauditeur sur
le monde (Latraverse, 1987) - les objets et individus présents dans la
situation dénonciation ou évoqués par elle
(Lyons, 1977)
11Langue
référent objet linguistique
objet référé objet du monde
référé objet mental
monde
individu
triangle aristotélicien
Le contexte dun objet linguistique est composé
1.du co-texte (autres objets linguistiques dans
l entourage) 2.du contexte mental (base de
connaissances) où se trouve le référé 3.du
contexte externe (le monde) où se trouve l objet
référé.
12- En logique
- les prédicats du même énoncé
- les variables liées
- les valeurs de variables proposées
- En logique, les contextes mental et externe sont
confondus avec le co-texte - En programmation
- il existe un  contexte mental qui pourrait
correspondre à - létat de la base de connaissances
- létat de la machine
13A quoi sert la sémantique
- En linguistique
- mise en rapport des objets de langue avec le
monde - les enfants de Pierre et Marie sont blonds
- La génération soixante-huit, ce sont les enfants
de Marx et du Coca-Cola - En traitement automatique des langues
- mise en rapport des objets de langue et dune
 forme calculable
14Les principes
- Les modèles
- de la linguistique
- de l intelligence artificielle
- autres modèles en informatique
- Les modes de résolution
- Les architectures
15Les modèles
- Modèles linguistiques pour la sémantique
- sémantique compositionnelle
- sémantique différentielle
- sémantique  interprétativeÂ
16Modèles linguistiques pour la sémantique
- Sémantique compositionnelle
- Le sens de la phrase est une composition (plus ou
moins formelle) des sens des mots - si un mot a plusieurs sens, cela génère autant de
combinaisons possibles - le  bon sens est celui dont la combinaison est
plausible
17Sémantique compositionnelle
- Exemple
-  Je me suis arrêté à la première pompe que jai
pu trouver.Â
lieu appareil chaussure
La condition de  plausibilité exclut
 faste , et  exercice physique .
18Sémantique compositionnelle
- Exemple
-  Je me suis arrêté à la première pompe que j ai
pu trouver. - trois  phrases -sens générées.
QUI DÉTERMINE LA PLAUSIBILITÉ ? UN PROCESSEUR
HUMAIN UNE CONNAISSANCE FORTE DU MONDE
19Sémantique compositionnelle
- Exemple
-  Je me suis arrêté à la première pompe que j ai
pu trouver. - Une deuxième  passe de plausibilité supprimera
le sens  chaussure .
EST PLAUSIBLE CE QUI NÂ EST PAS INCONGRU NÂ EST
PAS RIDICULE
20Sémantique différentielle
- Parmi tous les sens d un mot, c est le plus
spécifique qui doit être choisi en premier. - S appuie sur une représentation très fine des
sens des mots dans le dictionnaire - Pottier, Greimas (sémantique structuraliste),
Barwise et Perry (sémantique des situations)
21Sémantique différentielle
-  Je me suis arrêté à la première pompe que j ai
pu trouver. - 1. appareil permettant laspiration dun liquide,
ex  une pompe de relevage - 2. par extension de 1, dispositif de fourniture
d essence pour automobile ,  la pompe Ã
essence - 3. par extension de 2, représente les propriétés
de lessence,  le prix à la pompe  - 4. par extension de 2, représente le lieu de
fourniture d essence ,  il y a une pompe pas
loin  .
22Sémantique différentielle
-  Je me suis arrêté à la première pompe que j ai
pu trouver.Â
1.
appareil
aspiration liquide
2.
appareil à essence
les propriétés de lessence
3.
essence automobile
lieu consacré à la vente
station dessence
4.
23Sémantique différentielle
- Les règles de différentiation qui s appliquent
sont - compatibles avec le co-texte
- arrêter, trouver
- forcées par le co-texte (coercitive rules de
Pustejovsky)
24Sémantique interprétative
- Le sens le plus spécifique garde en mémoire tous
les sens génériques, et la récurrence du terme
peut s appuyer sur le fond commun. - Rastier (1986)
- Fonctionne pour les mots à sens multiples et
dépendants.
.
25Sémantique interprétative
-  Je me suis arrêté à la première pompe que j ai
pu trouver.Â
1.
appareil
aspiration liquide
2.
appareil à essence
les propriétés de lessence
3.
essence automobile
lieu consacré à la vente
station dessence
4.
26Les modèles
- Les modèles de lintelligence artificielle
- Les schémas (frames)
- Les scénarios (scripts)
- Les ontologies arborescentes (issues des réseaux
sémantiques) - Les graphes conceptuels
27Les modèles de l intelligence artificielle
- Les schémas (Minsky 1974)
- Un schéma (frame) est un ensemble de
connaissances autour dun sujet donné (ici, un
mot). - L usage des schémas en sémantique se fait de la
manière suivante - sur une chaîne de classification donnée, on
associe à chaque terme son schéma.
28- valeurs par défaut pour C1n sous forme
d attribut (facette, valeur)
C11
Schéma de C11
Schéma de C1n-1
C1n-1
Schéma de C1n
lien  is-aÂ
C1n
29Exemple
fait en matière (organique, minérale) type
(naturelle, artificielle) prix origine
composé de pieds (3, 4) dosseret (oui, barreaux
oui,non non) assise matière
meuble
chaise
fauteuil
chaise-Ã -porteur
17ème siècle mode de transport
30- Beaucoup de connaissances à intégrer
- Problème des sens figurés du mot
- jouer aux chaises musicales
- mener une vie de bâton de chaise
- Et de certains de ses dérivés
- ambitionner le fauteuil présidentiel.
- Les schémas sont adaptés en sémantique lorsqu il
s agit d applications très limitées. - A éviter en recherche dinformation ou indexation
31Les modèles de l intelligence artificielle
- Les scénarios (Schank 1978)
- Un scénario (script) est un ensemble de
connaissances autour d une situation donnée. - Le scénario comprend
- des conditions initiales (de déclenchement)
- des actions (possibles)
- un résultat
- des exceptions (anomalies)
- A chaque élément est associé un schéma.
32Les scénarios pour l interprétation du LN
- Les scénarios sappliquent à l interprétation du
langage naturel en fournissant les conditions
pragmatiques d interprétation. - Les conditions initiales peuvent être exprimées
par du texte - Les actions sont des prédicats verbaux
- Le résultat est ce qui est attendu
- Les anomalies sont répertoriées lors qu elles
sont connues.
33ce que l on sait déjÃ
Ce qui est dit
événement
Schémas
actions élémentaires
référence à d autres schémas
34Exemple
- Scénario  réviser une voitureÂ
- ELEMENTS
- voiture
- ACTEURS
- client, garagiste
- CONDITIONS INITIALES
- le client amène sa voiture au garage
- il possède un moyen de paiement
- la voiture est dans un état donné
35Exemple réviser une voiture
- RESULTAT(ESCOMPTE)
- le client reprend sa voiture au garage
- il a de l argent en moins
- la voiture est révisée
- ANOMALIES
- le client ne reprend pas sa voiture
- la voiture n est pas révisée
- la voiture est révisée mais elle n est pas en
bon état
36Exemple réviser une voiture
- ACTIONS
- Origine CLIENT
- AMENER (voiture, garage)
- LAISSER-A (voiture, clés, papiers, garagiste)
- CONVENIR-AVEC (rendez-vous, garagiste)
- PARTIR
- REVENIR
- PAYER(facture)
- PRENDRE (voiture, clé, papiers)
37Exemple réviser une voiture
- Origine GARAGISTE
- pour chaque partie de Voiture (schéma VOITURE)
faire - VERIFIER (partie)
- si partie à changer alors CHANGER(partie)
- si partie à réparer alors REPARER (partie)
- fin
- pour tous les éléments changés et réparés,
MARQUER (partie) - FACTURER (partie)
- DONNER (facture, client).
38Les difficultés
- Des situations stéréotypées
- Ambiguïté du déclenchement
- Jean est allé chez le garagiste.
réviser une voiture
acheter une voiture
louer une voiture
réparer une voiture
39Extensions plans et thèmes
- Repérer le thème du texte
- acteurs, éléments
- premiers prédicats verbaux
- Considérer un scénario comme un plan possible,
modifiable (déroutable)
planification
40Conclusion sur les schémas et les scénarios
- Essaient d intégrer des connaissances
 contextuelles de type pragmatique - Mais
- lourdeur des structures
- rigidité
- aspect trop détailliste par certains côtés pas
assez par d autres - énorme quantité de connaissances
- structuration dépendant fortement des concepteurs
41Les modèles de l intelligence artificielle
- Les  ontologies arborescentes
- après l échec dune structuration trop
importante et trop large - restriction des années 90
- Ã une application
- à un domaine, de préférence technique et défini
- Ã une structure arborescente
- plusieurs  arbres de connaissance plutôt
qu un seul réseau
42Exemple
- domaine chimie
- application enseignement secondaire de la
chimie atomique - agrégats  partie-deÂ
substance
molécule
atome
particule
43Exemple
- domaine chimie
- application enseignement secondaire de la
chimie atomique - agrégat  sorte-deÂ
particule
particule chargée
particule neutre
proton
électron
neutron
44- relations typées
- sorte-de selon un critère
- sorte-de inclusion de classe
- sorte-de membre-de
- partie-de
- Les ontologies arborescentes supposent
- un mot un sens
- ce qui correspond qu à un sous-ensemble très
faible du langage naturel
45Les modèles de l intelligence artificielle
- Les graphes conceptuels (Sowa 1984)
- l idée que l esprit et le langage s organisent
de la même manière (ressemblance des contextes
linguistique et mental) - il existe une représentation en lambda-calcul du
contexte mental - application à la langue
objet du prochain cours
46Les applications
- Recherche dinformation
- recherche d une information I représentée par un
texte T, dans une base de documents D - Indexation par un texte T d une information I,
applicable à toute base de documents Dk - Les deux problèmes ne sont pas exactement
symétriques
47Recherche d information
les Ij sont des sens possibles de T, ou
contenus dans des sens de T
I1
texte T
I2
In
base de documents (corpus)
recherche doccurrences
l algorithme de recherche d occurrence est
celui d un motif M/ M? T d un sous-motif K de
M/ MÇ T K
48Problèmes
- L information I recherchée
- n est pas représentée par un unique texte T
- n est pas le seul sens possible de T
- n est pas la composition des sens des éléments
de T - Les occurrences de T récupérées, sont, au mieux
des sur-textes de T, parfois des sous-textes. - La recherche d information est donc parasitée
par la non unicité sémantique.
49Exemple
- L information I recherchée concerne  l Hôtel
de Ville , c est-à -dire, la mairie principale
du lieu (s il s agit d une ville Ã
arrondissements). - La séquence  hôtel de ville a pour sens
- I1 mairie
- I2sorte d hôtel
- I3sorte d hôtel en milieu urbain.
- Sont récupérées dans le corpus des chaînes
- rue de l Hôtel de Ville
- l hôtel de Mussy est dans la ville de Gordes
50Exemple (suite)
- Si, de manière sophistiquée, un analyseur accepte
les formes accordées, on récupère en plus - tous les hôtels de la ville de Paris sont chers.
- l hôtel est en dehors de la ville.
- au métro Hôtel-de-Ville, vous trouverez le bazar
de l Hôtel-de-Ville. - mais aussi, avec un pourcentage affaibli de
concordance, tout ce qui va contenir  hôtel et
 ville , dans la fenêtre donnée.
51LÂ indexation
- l indexation est le marquage d un texte T comme
motif pour tout corpus de documents Dk, dans le
but de récupérer une information I. - Il faut donc choisir, pour indexer, le meilleur T
parmi les Ti représentant I, mais rechercher sur
les Ti (avoir un dictionnaire TTi) - La qualité intrinsèque de T n est cependant pas
suffisante, elle est dépendante de la
confrontation avec chaque corpus.
52LÂ indexation
- Ainsi, par exemple il vaut mieux indexer par
- mairie
- que par  hôtel de villeÂ
- par
- coléoptère
- que par  papillonÂ
- Ã cause des sens multiples, mais, si vous
cherchez dans un corpus scientifique, la qualité
de votre index n est pas la même que dans un
corpus général.
53- Dans un corpus de biologie, le mot  mère a
souvent le sens de  origine ce qui n est pas
le cas des corpus autres, - et le mot  charme va souvent être associé
- aux propriétés des particules dans un corpus de
physique atomique, - aux arbres dans un corpus d agronomie
- mais aussi à n importe quel autre sens possible.
- ex  la démonstration/l expérience ne manque
pas de charme .
54Les applications
- L interprétation de requêtes
- On suppose que l usager exprime une demande
vis-à -vis d une - base de données
- base de connaissances
- base de documents
- sous forme d une requête en langage naturel.
55Linterprétation de requêtes
- la sémantique consiste a
- transformer la requête en structure
- toute ou partiellement appariable avec
- la base de données attribut/valeur
- la base de connaissances prémisse/conclusion
- la base de documents
- dans le dernier cas, il s agit d identifier le
texte T a rechercher, et le sens I le plus
plausible de T.
56Les dialogues finalisés
- Le plus souvent, la requête est suffisamment mal
formulée, - ou l on souhaite assister l usager dans la
formulation ou la satisfaction de sa requête - Le dialogue est le plus haut niveau
d intégration du TALN dans l interaction
homme-machine - l appariement de la requête devient l étape
ultime d un processus de communication
57La sémantique au secours de l analysemorpho-synt
axique
- De nombreuses ambiguïtés morpho-syntaxiques
peuvent être levées grâce à l information
sémantique, mais surtout pragmatique. - la ferme de Jean
- l usage désigne plus souvent le bâtiment que la
poutre.
58Conclusion(provisoire)
- la sémantique est un élément qui, en TALN,
devrait être indissociable de la pragmatique. - Les mots ont des significations possibles
différentes, mais en contexte, ils ont un sens,
qui peut être complexe. - les modèles logiques de la sémantique ont été
insuffisants pour remplir leur rôle
d interprétation - en revanche, ils sont très utiles comme systèmes
d aide au raisonnement
59perspectives
- des modèles logiques descriptifs de la sémantique
les graphes conceptuels - les problèmes de la sémantique
- les modèles où le sens est calculé en contexte
- le modèle vectoriel tourné vers la recherche
d information et l indexation.