Cours sur le traitement automatique des langues : La s - PowerPoint PPT Presentation

About This Presentation
Title:

Cours sur le traitement automatique des langues : La s

Description:

Le niveau sublexical est peu d crit : Th ories linguistiques de type ... proche aussi d'aspiration (appareil aspirant) d'air(fusil pompe), de mouvement haut et ... – PowerPoint PPT presentation

Number of Views:534
Avg rating:3.0/5.0
Slides: 56
Provided by: violain
Category:

less

Transcript and Presenter's Notes

Title: Cours sur le traitement automatique des langues : La s


1
Cours sur le traitement automatique des langues
La sémantique (1b)
  • Violaine Prince
  • Université de Montpellier 2
  • LIRMM-CNRS

2
Plan de lexposé
  • Classement des approches sémantiques
  • Par granularité
  • Par paradigme
  • Sémantique vectorielle un modèle
    trans-granularité
  • Conclusion et perspectives

3
Classement des approches sémantiques
  • La notion de granularité
  • Taille du segment interprétable.
  • Sublexical (les sèmes)
  • Lexical (le mot)
  • Syntagmatique (syntagmes/groupes)
  • Phrastique (phrase/proposition)
  • Textuel (ensemble de phrases)
  • Document (texte complet)
  • Collection

4
Les granularités définies
  • Le niveau sublexical est peu décrit
  • Théories linguistiques de type sémantique
    structurale (Pottier, Greimas)
  • Travaux informatiques
  • M. Gross constitution de dictionnaires (Intex/
    Sylberstein)
  • Informatisation des travaux de F. Rastier (P
    Beust)

5
Sémantique structurale
  • Ecole Française de Bernard Pottier et ses élèves
    (Greimas, Rastier)
  • Le mot est un  ensemble  de  sèmes  ou signes
    de sens.
  • La structuration sémantique est une
     superstructure  de la structuration sémique.
  • Deux unités sont différenciées le sème (signe)
    et le sémantème (unité de sens)

6
Représentation sémantique structurale
  • Une  partie  du mot  pompe 

1.
appareil
aspiration liquide
2.
appareil à essence
les propriétés de lessence
3.
essence pour véhicule
lieu consacré à la vente
station dessence
4.
entreprise
7
  • Le niveau lexical (sémantique lexicale) est très
    riche.
  • Mots ou groupes de mots inséparables.
  • Exemples
  • Pomme
  • Pomme-de-terre
  • Sert de base aux dictionnaires
  • Plusieurs paradigmes défrichent ce niveau.

8
  • Niveau syntagmatique/groupe les sémantiques
    n-grammes (bi ou trigrammes)
  • Expression syntagmatique nominale
  • N1 de N2 (B. Habert)
  • Moulin à café (quasi-lexicalisé)
  • Médecin de famille
  • Fleur des champs, fleur de pommier
  • Peu de travaux sur les groupes verbaux (sauf en
    anglais en raison des suffixes)
  • En gros, des sémantiques de type  opérationnel 
    à base fréquentielle (Zipf, Harris)

9
  • Le niveau propositionnel est le domaine
    privilégié des modèles sémantiques logiques.
  • La proposition est  complète  en termes de sens
  • Elle est évaluable
  • Lévaluation se fait après décomposition (en
    éléments constitutifs) et recomposition du sens
  • Le rapport entre phrase et proposition nest pas
    toujours très clair (la majorité des exemples de
    phrases sont des propositions).
  • Les expressions figées lexicalisation (E.
    Laporte).
  • Balayer devant sa porte.
  • Tourner autour du pot (to beat around the bush).

10
  • Le niveau textuel sémantique commence à se
    confondre avec le niveau thématique.
  • Un texte un énoncé un ensemble de phrase.
  • Nest pas une unité  complète 
  • Possède un  thème  (ou plusieurs)
  • De quoi parle le texte ?

11
  • Travaux sur les liens entre phrases
    (inter-phrastiques).
  • Anaphore pronominale attachement
    syntaxe-sémantique.. Parfois fondé sur des
    connaissances extra-sémantiques.
  • Le médecin est venu voir Pierre. Il avait 39 de
    fièvre.
  • Le médecin est venu voir Pierre. Il avait une
    sacoche noire bourrée.
  • Le médecin est venu voir Pierre. Il est arrivé
    une heure et demie après notre appel.
  • Le médecin est venu voir Pierre. Il était
    enrhumé.

12
  • Travaux de Grosz et Sidner (1986)  focus and
    attention 
  • Lattachement pronominal se fait majoritairement
    avec le dernier nom de même genre et nombre.
  • Le médecin est venu voir Pierre. Il avait 39 de
    fièvre
  • (1/4 exact)
  • Sinon, il dépend du  thème  général du texte.
  • Thème médecin personne spécialiste, faisant des
    visites, à lappel des malades, portant une
    sacoche.
  • Le médecin est venu voir Pierre. Il avait une
    sacoche noire bourrée.
  • Le médecin est venu voir Pierre. Il est arrivé
    une heure et demie après notre appel.
  • 2/4 exact.

13
  • Thème  Pierre est malade 
  • Il a de la fièvre, il est enrhumé.
  • Le médecin est venu voir Pierre. Il avait 39 de
    fièvre
  • Le médecin est venu voir Pierre. Il était
    enrhumé.
  • 2/4 exact.
  • Double thème le médecin et Pierre est malade.
  • Les quatre énoncés sont interprétables
  • Cependant, le médecin peut-être lui aussi
    enrhumé.

14
  • Les anaphores nominales la relation de
    synonymie ou de proximité sémantique lexicale.
  • Pierre est allé voir un ophtalmologiste. Le
    spécialiste lui a donné une ordonnance pour une
    nouvelle paire de lunettes.
  • Quavez-vous fait à Marie-Hélène ? Cette femme
    narrête pas de téléphoner.

15
  • Dès lors quon dépasse en granularité le niveau
    propositionnel, des  niveaux  danalyse autres
    que sémantiques semblent être sollicités.
  • Trois dimensions semblent co-exister et
    interagir
  • La syntaxe (règles de composition)
  • La sémantique (règles de pré-interprétation)
  • La pragmatique (stratégies dinterprétation gt
    opérer des choix dans les pré-interprétations
    sémantiques)

16
  • Au niveau du document
  • On passe complètement dans des structures
    danalyse ou de représentation  stylistiques 
    ou de contenu.
  • Les travaux informatiques sur le document ne
    concernent que
  • Sa structuration (formalisée ou pas)
  • Ses liens (hypertextes)
  • Sa pertinence par rapport à une requête
    (recherche dinformation)
  • Sa thématique représentable par des mots clés
    (indexation)
  • Sa catégorisation (par rapport à un thème fourni)
  • Sa classification (par rapport à un thème, une
    collection ou un autre document)

17
  • La collection complètement dans une vision
    thématique
  • Collection de textes
  • Collection douvrages qui sont eux-mêmes des
    collections de texte
  • Les travaux informatiques sont ceux de la
    recherche documentaire (Salton et dérivés).

18
Conclusion sur la notion de granularité
  • La sémantique sefface avec laugmentation de la
    granularité, graduellement, au profit de la
    thématique.
  • La sémantique apparaît plus non pas comme un
    choix univoque dinterprétation (fonction) que
    comme un choix ensembliste (application dun
    élément vers une partie densemble). On parle
    plutôt de  champ sémantique .

19
  • En réalité, la sémantique est un mécanisme de
    comparaison beaucoup quun mécanisme
    daffectation de valeur.
  • Au niveau sublexical pompe  proche 
    dappareil, dappareil à essence, de station,
    dentreprise proche aussi daspiration (appareil
    aspirant) dair(fusil à pompe), de mouvement haut
    et bas (faire des pompes).

20
  • Au niveau lexical quel terme exact choisir pour
    remplacer  pompe 
  • Au niveau syntagme/groupe savoir si le syntagme
    à un sens différent de la composition des sens
    des constituants.
  • Composition non commutative
  • Voile de Bateau différent de Bateau à voile
  • Valeur des moyennes différent de moyenne des
    valeurs

21
  • Composition souvent non intègre
  • Moulin à paroles -gt bavard
  • Pomme-de-terre -gt rien à voir avec la pomme et la
    terre
  • Les formalismes n-grammes ne conservent pas
    toujours la nature même du lien

22
  • Au niveau propositionnel
  • Lévaluation à la valeur de vérité nest
    absolument pas pertinente.
  • Une phrase est interprétée linguistiquement si on
    en reconnaît le thème et on sait lassocier à des
    objets du monde (interprétation extra-sémantique)
  • Une phrase est interprétée informatiquement si et
    seulement si elle est transcrite dans un
    formalisme sans perte dinformation intrinsèque,
    qui conserve ses relations de proximité et son
    appartenance thématique.

23
Langue
référent objet linguistique
objet référé objet du monde
référé objet mental
monde
individu
triangle aristotélicien
  • Linterprétation linguistique associe
  • pour un individu donné
  • Un référent donné (objet linguistique)
  • À un objet du monde

24
  • L  interprétation informatique  associe,
  • pour un objet linguistique donné
  • - un objet mathématique
  • Calculable par une machine

Interprétable Par un individu Et
représentable Par ce dernier
Langue
Formalisme
.
machine
25
  • En machine on ne fait que re-présenter et non pas
    interpréter
  • On délègue à la machine le processus de calcul
    des similitudes et des proximités (entre énoncés)
  • Quand il y a de GRANDES MASSES de données

26
Les paradigmes (de calcul)
  • Le paradigme symbolique logique
  • On traduit lénoncé en langue en un énoncé
    logique que lon manipule ensuite selon ses
    propres lois
  • Au lieu dinterpréter en valeur de vérité
    absolue, on vérifie que lénoncé est valide par
    rapport aux  ontologies .
  • On appelle ontologie une structure de
    connaissances qui
  • Relie des concepts entre eux
  • Leur associe des propriétés
  • Possède des propriétés exploitables par des
    opérateurs

27
Exemple ontologie de schémas (Minsky)
  • valeurs par défaut pour C1n sous forme
    d attribut (facette, valeur)

C11
Schéma de C11
Schéma de C1n-1
C1n-1
Schéma de C1n
lien  is-a 
C1n
28
Exemple
  • Chaise

fait en matière (organique, minérale) type
(naturelle, artificielle) prix origine
composé de pieds (3, 4) dosseret
(oui,non) barreaux ( oui,non) assise matière
meuble
chaise
fauteuil
chaise-à-porteur
17ème siècle mode de transport
29
  • Formalismes dontologies
  • Treillis(de Galois)
  • Arborescences
  • Réseaux (sémantiques)
  • Ont du mal a différencier le statut  langue du
    statut  formalisme  au niveau lexical
  •  dictionnaires ,  thésaurus 

30
Les modèles de données
  • Les  ontologies  arborescentes
  • après l échec dune structuration trop
    importante et trop large
  • restriction des années 90
  • à une application
  • à un domaine, de préférence technique et défini
  • à une structure arborescente
  • plusieurs  arbres de connaissance  plutôt
    qu un seul réseau

31
Exemple (1)
  • domaine chimie
  • application enseignement secondaire de la
    chimie atomique
  • agrégats  partie-de 

substance
molécule
atome
particule
32
Exemple (2)
  • domaine chimie
  • application enseignement secondaire de la
    chimie atomique
  • agrégat  sorte-de 

particule
particule chargée
particule neutre
proton
électron
neutron
33
Propriétés structurelles
  • relations typées
  • sorte-de selon un critère
  • sorte-de inclusion de classe
  • sorte-de membre-de
  • partie-de
  • Les ontologies arborescentes supposent
  • un mot un sens
  • ce qui correspond qu à un sous-ensemble très
    faible du langage naturel

34
Les modèles multi-structure
  • Les graphes conceptuels (Sowa 1984)
  • l idée que l esprit et le langage s organisent
    de la même manière (ressemblance des contextes
    linguistique et mental)
  • il existe une représentation en lambda-calcul du
    contexte mental
  • application à la langue

35
Graphes conceptuels
  • Modèle de données
  • Un treillis de concepts
  • Un treillis de relations
  • Lambda-formules
  • Graphe canonique
  • Graphe de définition
  • Graphe de phrase

36
Fonction des modèles symboliques logiques
  • Actions  sémantiques  réalisées
  • Transformer la phrase en LN
  • La chaise est bleue
  • En sa structure logique (ou sa lambda-expression)
  • Chaise (x) ? couleur (x,  bleu )
  • Vérifier dans lontologie
  • Que chaise existe
  • Quelle peut avoir une couleur
  • Que la couleur  bleu  existe
  • Quil nexiste pas de contrainte contre la
    couleur bleue pour une chaise

37
Limites en LN
  • Reste le problème de savoir
  • Sil sagit dun exemplaire de chaise répertorié
    dans lensemble des connaissances
  • ? x0 ?X/ chaise(x0) ?couleur(x0,  bleu )
  • Sil sagit dun nouvel exemplaire
  • ? x chaise(x) ?couleur(x,  bleu ) gt x ?X
  • Sil sagit dune assertion concernant la classe
    des chaises
  • ?x ?X chaise(x) gt couleur(x,  bleu )

38
  • Beaucoup de connaissances à intégrer
  • Problème des sens figurés du mot
  • jouer aux chaises musicales
  • mener une vie de bâton de chaise
  • Et de certains de ses dérivés
  • ambitionner le fauteuil présidentiel.
  • A éviter en recherche dinformation ou indexation

39
Autres paradigmes
  • Le paradigme symbolique numérique
  • Le modèle connexionniste
  • Le modèle vectoriel (non saltonien)
  • Le paradigme statistique/probabiliste
  • Modèle vectoriel de Salton
  • La co-occurrence de Church
  • Les mesures de similarité ou de similitude
  • La sémantique distributionnaliste (Harris)
  • Les chaînes de Markov
  • Le modèle de Markov caché

40
Le modèle connexionniste
  • Plusieurs approches connexionistes de la
    sémantique
  • Sémantique Lexicale
  • Calculer le sens dun mot en contexte (par
    rapport aux autres mots co-occurents).
  • Un réseau mono ou bi-couche de
  • n cellules ayant chacune une variable détat xn
  • Des arcs entre ces cellules avec un poids qui
    affecte les états des cellules quils relient
  • Des équations détat pour qui sont des gradiants
    dune fonction dénergie F(x,p,t))
    grad_x(E(x,p,t)).
  • Un mécanisme dapprentissage sous forme
    déquation de modification de poids/ pL(x,p,t).

41
  • Les cellules représentent des mots
  • Ils sont reliés en fonction de leur présence dans
    un contexte donné (fenêtre)
  • Les poids sont définis initialement.
  • Les changements détat interviennent entre un
    état initial correspondant à une définition et un
    état final correspondant à la position en
    contexte dans une phrase donnée.
  • Le mécanisme dapprentissage recalcule le poids
    en fonction de la phrase apprise.

42
Modèles connexionnistes en sémantique limites
  • Le réseau mono-couche  perd  la définition
    initiale.
  • Le réseau bi-couche la conserve et permet de
    mesurer la différence entre un sens
     dictionnairique  et un sens  en corpus ,
    mais il est limité en taille
  • Les modèles mono-couche risquent de modifier très
    fortement les relations entre les mots en
    fonction des corpus rencontrés.
  • On peut  oublier  des sens rares
  • On peut apprendre de manière biaisée.

43
Les modèles vectoriels
  • Le modèle vectoriel sera présenté dans le
    prochain cours.
  • Modèle à famille génératrice de taille fixe
    (équipe TAL du LIRMM)
  • Issu du TAL.
  • Modèle sémantique.
  • Modèle à base de taille variable (modèle de
    Salton).
  • Issu de la recherche documentaire. Problème de la
    pertinence dun texte par rapport à une requête
  • Non TAL
  • Non sémantique

44
La co-occurrence de Church Formule de
linformation mutuelle (n-grammes)
  • Modèle fondé sur des probabilités conditionnelles
  • Notion de fréquence dapparition commune entre
    des termes.
  • Si x et y sont tous deux des mots, linformation
    mutuelle I(x,y) est donnée par la formule
  • Où, si N est le nombre total de mots
  • p(x) freq(x)/N p(y) freq(y)/N p(x,y)
    freq(x,y)/N

I(x,y) log2 p(x,y)/(p(x)p(y))
45
  • On remarque que plusieurs bi-grammes sont de
    fréquence très basse.
  • Linformation mutuelle a des valeurs exagérémment
    élevées pour des bigrammes de basse fréquence ,
    cad quelle considère comme associés des termes
    qui ne le sont pas tellement.
  • Formule du maximum de vraisemblance
  • log (freq(x,y)/N)/(freq(x)/N)(freq(y)/N)
  • Quand on passe aux n-grammes , la fréquence
    diminue encore.

46
Les mesures de similarité ou de similitude
  • Plusieurs mesures existent.
  • Elles définissent
  • La proximité dun document par rapport à un autre
    en fonction des termes quils contiennent
  • La pertinence thématique dun document par
    rapport à un index, un mot-clé, une requête
  • Elles proviennent dune approche  recherche
    documentaire /statistique (vs IA/logique ou
    IA/connexionniste)

47
Les mesures de similarité ou de similitude
  • Produit scalaire (cosinus) ou similarité de
    Salton.
  • Mesure géométrique de type distance  ?cos(d,d)
    d.d/(IIdIIxIIdII)
  • Coefficient de Jaccard
  • Mesure ensembliste ou d est lensemble des
    unités linguistiques du document d
  • ?jaccard(d,d) Id?dI/(Id? dI)
  • 1- ?jaccard(d,d) vérifie linégalité
    triangulaire et donc se comporte comme une
    distance.

48
La sémantique distributionaliste (Harris)
  • En France, travaux de Rajman, Habert, Bonnet
  • Ailleurs Grefenstette, Dagan, Sparck
    JonesForte corrélation entre les
    caractéristiques distributionnelles observables
    des mots et leurs sens.
  • Les contextes apportent suffisamment
    dinformation pour un lecteur humain pour être en
    mesure daffecter un sens à un mot en contexte.
  • Lemme Deux unités linguistiques sont
    sémantiquement similaires si leurs contextes
    textuels sont similaires.

49
Approches distributionalistes
  • Intégration de matrices de co-occurrence
  • Interprétation de profils de co-occurrence
    probabilistes (Besançon et Rajman)
  • P(tiIuj) cij f(tj,ui) / ??kf(tk, ui)
  • En dautres termes la probabilité que le sens
    porté par le terme tj soit associé à lunité
    linguistique ui est aussi le coefficient dans la
    matrice de co-occurrence des termes dindexation
    avec les contextes (unités linguistiques) du
    corpus, cest-à-dire la fréquence doccurrence du
    terme par rapport à la somme des fréquences
    doccurrences des termes dans cette même unité.

50
Exemple
  • Le X se comporte de façon individualiste, il a
    une grande gueule rose quand il baille, et est
    très soucieux de sa toilette.
  • Les Egyptiens adoraient le X et lui associaient
    des qualités de paix du foyer et de miséricorde.
  • La nuit tous les X sont gris.

X chat
51
Les chaînes de Markov
  • A eu un impact important dans la statistique
    textuelle
  • Usage de la la probabilité conditionnelle
    (n-grammes) de manière différente
  • Plutôt que d'étudier le rapport entre deux
    variables X et Y, on cherche à caractériser la
    relation entre les états (symboles) consécutifs
    d'une seule variable X.
  • On parlera alors de probabilité de transition
    d'un symbole vers un autre 
  • P(ai-gtaj) P(Xt1 ai ?Xt aj) (probabilité
    conditionnelle)
  • où ai, aj ? A, et Xt représente l'état du
    système au temps t.

52
  • On appelle chaîne de Markov d'ordre 1 le modèle
    défini par une matrice de transition P de
    composantes
  • Pij p(ai -gtaj).
  • En généralisant, on peut construire des modèles
    d'ordre k 1 avec Pij p(w i-gtai) et wi ? Ak.
  • Conseil
  • http//www.unil.ch/Jahia/site/ling/cache/offonce/p
    id/12879

53
Autres modèles
  • Il existe de nombreux modèles mais ils
    apparatiennent à une famille.
  • Famille symbolique logique
  • Famille symbolique numérique
  • Famille statistique/probabiliste

54
Synthèse
  • Les modèles symboliques logiques essaient de
    représenter le sens par/pour le raisonnement
  • Les modèles symboliques numériques essaient
    dutiliser larithmétique, lalgèbre ou la
    géométrie pour représenter le sens par rapport
  • À dautres sens
  • À dautres mots
  • Les modèles statistiques ou probabilistes
    représentent le sens comme une probabilité ou une
    fréquence doccurrence dun motif dans un
    contexte.

55
Synthèse (fin)
  • Les modèles symboliques logiques essaient de
    reconstituer artificiellement le triangle
    aristotélicien
  • Les modèles symboliques numériques acceptent
    dêtre exclusivement dans une relation
    référent(langue)-référent(formalisme) et
    considèrent que le référé est approché par le
    morphisme M qui dit que
  • Si x en L est relié à x1,x2,,xn alors rep(x)
    dans F est relié à rep(x1),rep(x2),rep(xn) par
    une fonction sur F.
  • Les modèles statistiques/probabilistes ne
    travaillent que dans une relation
    référent(langue)-référent(langue) où la machine
    et les algorithmes servent de support de calcul
    sur de grandes masses de données.
Write a Comment
User Comments (0)
About PowerShow.com