Un analyseur syntaxique oprationnel : SYNTEX - PowerPoint PPT Presentation

1 / 50
About This Presentation
Title:

Un analyseur syntaxique oprationnel : SYNTEX

Description:

B. HABERT, Professeur, Universit de Paris 10 (rapporteur) S. KAHANE, ... M.-P. PERY-WOODLEY, Professeure, Universit de Toulouse Le Mirail (rapporteur) ... – PowerPoint PPT presentation

Number of Views:249
Avg rating:3.0/5.0
Slides: 51
Provided by: didierbo2
Category:

less

Transcript and Presenter's Notes

Title: Un analyseur syntaxique oprationnel : SYNTEX


1
Un analyseur syntaxique opérationnel SYNTEX
  • Didier BOURIGAULT
  • Laboratoire CLLE-ERSS
  • CNRS Université Toulouse-Le Mirail
  • Habilitation à Diriger les Recherches
  • Toulouse, le 9 juin 2007

B. HABERT, Professeur, Université de Paris 10
(rapporteur) S. KAHANE, Professeur, Université de
Paris 10 (rapporteur) M.-P. PERY-WOODLEY,
Professeure, Université de Toulouse Le Mirail
(rapporteur) J.-P. CHANOD, Manager, Xerox
Research Centre Europe J. VERONIS, Professeur,
Université dAix-en-Provence B. VICTORRI,
Directeur de recherche, Ecole Normale Supérieure
2
Plan
  • I- Description de lanalyseur
  • Hypothèses, principes
  • Architecture
  • II- Discussion
  • SYNTEX, un objet technique
  • Savoirs

3
Le projet SYNTEX
  • Après LEXTER
  • Logiciel dExtraction de TERminologie
    extraction de syntagmes nominaux dallure
    terminologique
  • (EDF, Direction des Etudes et Recherches)
  • Développement 1990-1994
  • Utilisations 1994-1999
  • Construction de ressources termino-ontologiques
  • Etudes sémantiques (analyse distributionnelle)
  • 1999 (avec C. Fabre) les verbes

4
Le projet SYNTEX
  • Objectif faire un analyseur syntaxique utile
  • précis analyses aussi correctes, et complètes,
    que possible
  • efficace temps de traitement raisonnables
    (volume)
  • utilisable
  • dans une large gamme dapplications (recherche
    universitaire et applications industrielles)
  • sur des corpus de genres variés
  • ? Un analyseur syntaxique opérationnel
  • Operational syntax (Bar-Hillel, 1951)
  • SYNTEX nest pas un  analyseur robuste 

5
operational syntax Bar-Hillel (1951)
  • A considerable body of descriptive data about
    the language of the world has been amassed in
    recent years, but so far no operational syntax of
    any natural language exists with a sizeable
    degree of completeness, and the necessity of
    providing such a syntax has apparently not been
    recognized by linguists. To give an analogy Just
    as even the most extensive knowledge of all
    imaginable properties of all chemical substances
    will not materially assist a student of chemistry
    in developing a method of analyzing a given
    mixture of unknown chemical substances, so even
    the most elaborate description of the properties
    of all morphological units of a given language
    will not enable a student of linguistics to find,
    in a reasonable time, a method of analyzing a
    given sentence-specimen of this language.
    Chemists have had to write, in addition to their
    general textbooks, special books instructing the
    student on how to proceed in a fixed sequential
    order (order which sometimes depends on the
    outcome of the preceding step) in his attempted
    analysis of a given mixture. Likewise special
    books will have to be written containing
    sequential instructions for linguistic analysis,
    i.e. an operational syntax.

6
Reconnaissance de formes
  • Le problème de lanalyse syntaxique automatique
    un problème de reconnaissance de formes
  • Toute séquence en entrée a une forme syntaxique
  • La fonction de lanalyseur est de reconstituer la
    forme de la séquence, au mieux
  • On peut scinder la résolution du problème en deux
    tâches fortement indépendantes
  • Étiquetage
  • Analyse
  • Reconnaître une bonne forme vs. vérifier la bonne
    formation
  • Il ne sagit pas de compilation, de calcul, de
    résolution de problème
  • Approximation (droit à lerreur)

7
Dépendance
  • Les formes structures de dépendance
  • Dans LEXTER constituance
  • La dépendance sest naturellement imposée dès le
    départ du projet SYNTEX.
  • Postulat dans une phrase, la présence de chaque
    mot est légitimée par la présence dun autre mot
  • Tesnière (1959) Melcuk (1988)

gouverneur dépendant
8
Dépendance
  • Principe dimplémentation
  • On peut décomposer le problème de la
    reconnaissance de la forme dune séquence en
    sous-problèmes élémentaires
  • pour chaque mot, retrouver son gouverneur

Le chat mange la souris grise.
9
Modules
  • Un module par relation SUJET, OBJET, PREP, ADJ,
    etc.
  • En entrée le numéro dun mot source (gouverneur
    ou dépendant)
  • En sortie le numéro dun mot cible (dépendant
    ou gouverneur, via la relation)
  • Parcours
  • Module algorithme qui décrit les parcours
    licites dans la séquence étiquetée et
    partiellement analysée entre un mot source donné
    et un mot cible (gouverneur ou dépendant)

10
Modules
  • Deux types de module
  • Parcours à orientation directe du gouverneur
    vers un dépendant (ex. SUJET)
  • Parcours à orientation inverse du dépendant
    vers le gouverneur (ex. PREP)

Le chat gris dort paisiblement sur le
paillasson.
11
Contraintes
  • Deux contraintes génériques
  • Projectivité les liens de dépendance ne se
    croisent pas
  • Unicité du gouverneur un mot a un seul
    gouverneur
  • Fonctions élémentaires de déplacement
  • Ces contraintes sont implémentées dans les
    fonctions élémentaires qui calculent le pas de
    déplacement dans le parcours
  • Principe  sauter  les mots qui ne peuvent pas
    être source (ou cible) dun lien sous peine de
    violation dune des contraintes
  • Il y a 4 fonctions élémentaires
  • selon lorientation (directe ou inverse)
  • selon le sens (droite-gauche ou gauche-droite)

12
Contraintes
  • Illustration
  • Calcul du pas de déplacement orientation
    directe, droite-gauche

Unicité !
Projectivité !
a b c d e f
m
13
Circularité
  • Selon quelle stratégie déclencher les modules de
    recherche de liens syntaxiques ?
  • Cascade chaque séquence sera traitée en
    plusieurs passes
  • Relation après relation ? De gauche à droite ?
    Combien de passes ?
  • Le problème antinomie entre
  • (1) Lintrication des liens syntaxiques dans une
    séquence
  • due à la propriété de concrétion (Milner,
    1989) de la langue une difficulté syntaxique ne
    vient jamais seule
  • (2) Le caractère séquentiel du traitement
    informatique
  • ? circularité

14
Circularité
  • 2 ordres de séquentialité
  • Ordre de traitement des mots dans la séquence (de
    gauche à droite, de droite à gauche)
  • Ordre de traitements des relations (Sujet avant
    ou après Objet, rattachement des prépositions
    avant ou après les adjectifs, etc.).
  • Double circularité
  • (1) pour reconnaître un lien syntaxique pour un
    mot à telle place dans lénoncé, il faudrait
    avoir déjà reconnu un lien à gauche, ou à droite,
    et réciproquement.
  • (2) pour reconnaître un lien syntaxique de tel
    type (Sujet, Objet, etc.) pour un mot de
    lénoncé, il faudrait avoir déjà reconnu un lien
    dun autre type pour un autre mot, et
    réciproquement.

15
Circularité
  • Double circularité

Il donne des bonbons à la fraise roses
Il donne des bonbons à la fraise roses
Jean aime le chat et le chien dort.
?
Jean aime le chat et le chien dort.
16
Architecture
  • Comment trouver la bonne stratégie
  • Il nexiste pas de stratégie idéale accepter
    lerreur, et la contenir
  • Eviter le piège de la complexité
  • Complexifier progressivement larchitecture
  • Architecture initiale simple
  • Une passe par relation, dans cet ordre
    coordination, objet, sujet, adjectif épithète,
    préposition.
  • Aucun module ne remet en cause les relations ou
    étiquettes placées par les modules antérieurs.
  • Chaque module résout ses ambiguïtés avant de
    passer la main au module suivant.

17
Architecture
  • Architecture actuelle 3 types de relations
    syntaxiques
  • 1- Relations locales
  • 2- Relations non ambiguës SUJET, OBJET
  • Lancer la recherche à partir du verbe
    (orientation directe)
  • Choisir le premier nom libre
  • 3- Relations ambiguës PREP, ADJ
  • Lancer la recherche à partir du dépendant
    (orientation inverse)
  • Ne pas sarrêter au premier gouverneur trouvé
    (plusieurs gouverneurs candidats syntaxiquement
    plausibles)
  • Désambiguïser !
  • La coordination est traitée en une fois, après
    les relations locales
  • Le  retour en arrière  est autorisé

18
Exemple
La fille de Marie lance la pelote de laine rouge
en_direction_du chat de Jean . D N P N
V D N P N A
P N P N
1- Relations locales
La fille de Marie lance la pelote de laine rouge
en_direction_du chat de Jean .
2- Relations non ambiguës
19
Exemple
3- Relations ambiguës
Recherche des candidats gouverneurs
La fille de Marie lance la pelote de laine
rouge en_direction_du chat de Jean .
Désambiguïsation
20
Désambiguïsation endogène
J'aimerais aussi participer quelques minutes au
rappel au règlement qui a été soulevé par mon
collègue.
Il sagit de la décision d'autoriser la
délivrance de la  pilule du lendemain  aux
adolescentes dans les établissements scolaires.
21
Désambiguïsation endogène
Je suis membre du comité chargé d'étudier les
modifications au régime d'assurance chômage.
Elles visent à attirer l'attention des Canadiens
sur une initiative politique très importante pour
notre pays.
Le ministre affiche sa volonté dune discussion
franche avec les syndicats.
Probabilité exogène (discussion,avec) 0,11
22
Coordination
  • Représentation

23
Coordination
  • Difficultés pour les approches formalisantes
  • gapping coordination
  • Jean aime Marie, et Paul Jeanne
  • valency slot coordination
  • Marie donne un livre à Jean et un stylo à Paul
  • Difficulté pour un analyseur syntaxique
    opérationnel
  • La relation de coordination interfère avec toutes
    les relations syntaxiques  des éléments
    coordonnés sont susceptibles dêtre source ou
    cible de tous les types de liens syntaxiques.
  • Lenchevêtrement des liens fait que cest avec la
    coordination que le problème de la circularité se
    pose avec le plus de gravité 
  • à quel(s) moment(s) reconnaître les liens de
    coordination ?

24
Coordination
  • Choix dimplémentation
  • Après relations locales, en une seule passe
  • Restriction isocatégoricité
  • Les mots coordonnés sont de même catégorie
    morphologique
  • Virgules coordinatives
  • Une virgule à gauche dun élément coordonné est
    testée comme une conjonction de coordination

Le crapeau bleu , blanc et rouge
25
Coordination
  • Cas difficiles
  • Coordination de  de  ou de Noms

Que ce soit au titre du Programme de
développement de l'emploi ou du nouveau Programme
de développement des collectivités. Il faut
aider les travailleurs de l'industrie du bois
d'oeuvre et du bardeau en vertu de la Loi de
soutien de l' emploi.
26
Retour en arrière
  • Remplacement de liens ou détiquettes
    préalablement posés

OBJ
OBJ
SUJ
C'est grâce à elle qu il a séquencé ,
entre autres , le virus de la grippe.
Rel
Sub
OBJ
SUJ
Le Canada a une histoire relativement courte et
certaines régions ont une histoire encore plus
courte que d' autres.
27
Retour en arrière
Les différents manuels et encyclopédies vendus
dans les librairies apportent leur lot de
renseignements pratiques et les petites fiches
décrivant les plantes qui les accompagnent
seront d'un grand secours pour les débutants.
Les compensations sur lesquelles ils n'ont
toujours pas réussi à se mettre d'accord .
Les nations arabes sur les territoires desquelles
on a prévu de forer le pétrole.
28
Micro-syntaxe et macro-syntaxe
  • Remise en cause de la notion de phrase
  • (Blanche Benveniste, 2002)  Micro-syntaxe ,
     macro-syntaxe  (Berrendonner, 2002)
     clause ,  période  (Gerdes Kahane, 2006)
  • Dans SYNTEX
  • la forme dune séquence juxtaposition de
    clauses (projection dun mot non gouverné)

29
Micro-syntaxe et macro-syntaxe
  • Exemples

SPNom Dans certaines gammes , S trop de
cigares mal roulés, aux capes imparfaites,
présentent des arômes ternes et insipides ,
SPVinf sans parler de la contrefaçon, qui touche
de nombreux secteurs de la distribution
. SNom Une mesure impatiemment attendue par les
opérateurs concurrents de France-Télécom
SSub Si c'est un bon projet de loi , S il
me semble qu'il devrait mériter une vigoureuse
défense de la contribution qu'il apportera à
l'amélioration de la vie canadienne S Rivière
sortit pour tromper l'attente , cc et S la
nuit lui apparut vide comme un théâtre sans
acteur
30
Evaluation campagne EASY
écart avec lanalyseur classé premier
écart avec lanalyseur classé deuxième
31
Evaluation usages
  • Diffusion
  • Des dizaines de corpus analysés fournis
  • SYNTEX installé dans une douzaine de laboratoires
    (depuis 2006)
  • Usages
  • Réseaux de syntagmes
  • Construction de ressources terminologiques
  • SYNOMIA (solutions de recherche dinformations
    pour sites Web)
  •  Triplets  (gouverneur, relation,
    dépendant), 200 M mots Le Monde
  • Sémantique lexicale
  • Corpus parallèles analysés
  • ALIBI (alignement de mots par propagation
    syntaxique, S. Ozdowska)

32
  • II) Discussion

33
Objet technique
  • SYNTEX un projet en ingénierie linguistique
  • Objectif dutilité
  • Question quels savoirs sur la langue apporte le
    projet SYNTEX ?
  • Le TAL, un domaine  écartelé 
  • TAL théorique vs TAL pragmatique
  • Linguistique et informatique

34
Objet technique
  • La philosophie de la technique de G. Simondon
  •  Cette étude est animée par lintention de
    susciter une prise de conscience du sens des
    objets techniques. La culture sest constituée en
    système de défense contre les techniques  or
    cette défense se présente comme une défense de
    lhomme, supposant que les objets techniques ne
    présentent pas de réalité humaine. Nous voudrions
    montrer que la culture ignore dans la réalité
    technique une réalité humaine, et que, pour jouer
    son rôle complet, la culture doit incorporer les
    êtres techniques sous forme de connaissance et de
    sens des valeurs.  (Simondon, 1958, p. 9)
  • SYNTEX est un objet technique
  • Lignée, adaptation, auto-corrélation

35
Lignée
  • Une philosophie de linvention
  • Les réalisations techniques apparaissent par
    invention.
  •  Genèse concrétisante 
  •  Lunité de lobjet technique, son
    individualité, sa spécificité sont les caractères
    de consistance et de convergence de sa genèse 
    (Simondon, 1971, p. 20)
  • Lignée analyseurs syntaxiques robustes
  • Début des années 1990 apparition du concept de
    robustesse
  •  We think of robustness as the ability of a
    language analyser to provide useful analyses for
    real-world input texts  (Aït-Mokhtar et al.,
    2002)
  • Dès le début de la Traduction Automatique, on a
    fabriqué des analyseurs syntaxiques
    opérationnels

36
Lignée
  • Quelques travaux
  • FULCRUM de P. S. Garvin (1967) Projet TDAP
    (1958-1959) F. Debili (1982) Projet PLNLP, K.
    Jensen et al. (IBM, 1980s) S. Abney (1990) J.
    Vergne (1998) J.-P. Chanod et al. (1990-2000)
  • Pas dévolution cumulative des connaissances
  • réitération deffort pour résoudre le même
    problème dans des  conditions dambiances 
    différentes
  • Convergences
  • Visée applicative
  • Architecture en cascade (stratégie
     concentrique )
  • Approche procédurale (vs. déclarative)
  • Agnosticisme théorique

37
Adaptation et auto-corrélation
  • La caractéristique de lobjet technique est
    dêtre un mixte dadaptation et
    dauto-corrélation
  •  Lobjet technique est dune part un médiateur
    entre organisme et milieu, dautre part une
    réalité intérieurement organisée et cohérente 
    comme médiateur, il doit sadapter à des termes
    extrêmes quil relie, et cest un des aspects de
    son progrès daméliorer son couplage aux réalités
    entre lesquelles il jette un pont  mais cette
    augmentation de complexité et de distance entre
    les termes extrêmes doit être compensée par un
    surcroît dorganisation et de cohérence entre les
    différentes parties de lobjet technique  le
    progrès se fait par oscillation entre les progrès
    de la médiation et ceux de lauto-corrélation. 
    (Simondon, 1971, p. 101-102)

38
Adaptation et auto-corrélation
  • SYNTEX
  • Les termes extrêmes une séquence ? son analyse
    syntaxique (correcte)
  • Les progrès de ladaptation portent sur les
    modules de recherche de liens syntaxiques
  • Les progrès de lauto-corrélation portent sur
    larchitecture de lanalyseur

39
Adaptation
  • Les progrès de ladaptation portent sur les
    modules de reconnaissance de liens syntaxiques
  • Objectif augmenter la résistance de
    lanalyseur, sa capacité à reconnaître des liens
    syntaxiques dans des configurations surfaciques
    complexes
  • ? en maintenant un taux de précision élevé
  • Méthode essais/erreurs
  • Tests systématiques et nombreux sur corpus
  • else print et ediff-buffers Emacs
  • Compétences requises
  • Connaissances de grammairien
  • Réflexes dingénieur
  • Les progrès de ladaptation sont réguliers.

40
Adaptation
  • Résistance

En fait le navire qui , peu après Trafalgar ,
avait été pris par les Anglais au large de la
côte portugaise et avait servi longtemps dans la
Royal Navy était en si mauvais état que les
explosifs, au lieu de percer des trous dans la
coque comme il avait été prévu, la détruisirent
complètement
41
Auto-corrélation
  • Les progrès de lauto-corrélation se réalisent
    par sauts qualitatifs
  •   Par contre, les progrès de
    lauto-corrélation demandent une résolution de
    problème, une invention qui pose un système
    synergétique de compatibilité. Cette invention
    peut être amenée par le besoin des progrès
    relationnels, mais elle ré-engendre la logique
    interne du système.  (Simondon, 1971, p. 102)

42
Auto-corrélation
  • Les progrès de lauto-corrélation portent sur
    larchitecture du système.
  • Objectif optimiser larchitecture du système
    pour résoudre les problèmes liés à la circularité
    (ordre de traitement des mots, ordre de
    traitement des relations)
  • Principe
  • Maîtriser la complexité (complexification
    progressive)
  • Pousser à bout les capacités de médiation jusquà
    atteindre des difficultés insolubles avec
    larchitecture courante
  • Tests de non-régression
  • Compétences ingénieur (inventivité)

43
Auto-corrélation
  •  Ré-engendrement  de la logique interne
  • Toute modification de larchitecture du système a
    un impact sur la conception des modules, sur les
    normes de conception
  • Exemples de modifications
  • Retour en arrière
  • Globalisation de la désambiguïsation
  • à venir
  • Répartition du traitement de la coordination
  • Prise en compte de lambiguïté morphologique
  • Néanmoins chercher à minimiser la dépendance de
    la programmation des modules vis-à-vis de
    larchitecture
  • Formalisation du parcours

44
Savoirs
  • Quels savoirs sur la langue apporte le projet
    SYNTEX ?
  • Science et ingénierie linguistiques
  • Les rapports entre science et techniques
  •  Les besoins pratiques ont contraint lHomme à
    améliorer les techniques sans attendre le
    développement de toutes les sciences  () cette
    avance est surtout caractérisée par le progrès
    des adaptations et la relative précarités des
    auto-corrélations  cest en partie ce hiatus au
    cur des techniques qui a fait ressentir le
    besoin de sciences, tandis que les parties déjà
    constituées des techniques offraient aux sciences
    naissantes non seulement des problèmes théoriques
    à résoudre (), mais encore des moyens
    dexpérimentation  le besoin dun complément
    interne de linvention déjà adaptée est en fait
    un appel au savoir scientifique. (Simondon,
    2005, p. 232)

45
Savoirs
  • Cest du côté de lauto-corrélation
    (architecture) quil faut chercher un éventuel
    apport de connaissances.
  • Pas de  génération spontanée  de connaissances
    au sein du projet SYNTEX
  • Lidentification de savoirs ne peut résulter que
    de la confrontation entre
  • les projets théoriques de description de la
    syntaxe des langues, et
  • les choix méthodologiques et larchitecture
    optimale construits dans le projet SYNTEX

46
Savoirs
  • Les points de discussion
  • Reconnaissance de forme approximer la forme vs.
    vérifier la bonne formation
  • Apprentissage endogène le corpus est sa propre
    norme
  • Pas de recours à des domaines extérieurs
    (sémantique, pragmatique)
  • 3 types de relations
  • locales, non-ambiguës, ambiguës
  • Dépendance et topologie

47
Instrument
  • Outil et instrument
  •  Loutil est lobjet technique qui permet de
    prolonger et darmer le corps pour accomplir un
    geste, linstrument est lobjet technique qui
    permet de prolonger et dadapter le corps pour
    obtenir une meilleure perception  linstrument
    est outil de perception. Mais un outil peut
    servir dinstrument, cest-à-dire pour prélever
    des informations sur la tâche quil permet
    dexécuter.  (Simondon, 2005, p. 58)

48
Instrument
  • SYNTEX en tant quinstrument
  • Acquisition dun corpus de propriétés de
    sous-catégorisation sur LM10
  • pour SYNTEX (producteur et utilisateur)
  • lexique disponible
  • SYNTEX corpus diversifiés de grande taille
  • INCAS
  • Les voisins
  • Extractions spécifiques

49
INCAS
50
Avenir
  • Développement
  • Unification de larchitecture anglais/français
  • Répartition du traitement de la coordination
  • Exploitation de ressources sémantiques (VDLM)
  • Intégration de lambiguïté morphologique
  • Confrontation aux théories syntaxiques
  • Utilisation à lERSS
  • Le discours
  • La phonologie (liaison, prosodie)
  • Diffusion
  • Usages standards
  • Attendre les détournements
Write a Comment
User Comments (0)
About PowerShow.com