Title: Un analyseur syntaxique oprationnel : SYNTEX
1Un analyseur syntaxique opérationnel SYNTEX
- Didier BOURIGAULT
- Laboratoire CLLE-ERSS
- CNRS Université Toulouse-Le Mirail
- Habilitation à Diriger les Recherches
- Toulouse, le 9 juin 2007
B. HABERT, Professeur, Université de Paris 10
(rapporteur) S. KAHANE, Professeur, Université de
Paris 10 (rapporteur) M.-P. PERY-WOODLEY,
Professeure, Université de Toulouse Le Mirail
(rapporteur) J.-P. CHANOD, Manager, Xerox
Research Centre Europe J. VERONIS, Professeur,
Université dAix-en-Provence B. VICTORRI,
Directeur de recherche, Ecole Normale Supérieure
2Plan
- I- Description de lanalyseur
- Hypothèses, principes
- Architecture
- II- Discussion
- SYNTEX, un objet technique
- Savoirs
-
3Le projet SYNTEX
- Après LEXTER
- Logiciel dExtraction de TERminologie
extraction de syntagmes nominaux dallure
terminologique - (EDF, Direction des Etudes et Recherches)
- Développement 1990-1994
- Utilisations 1994-1999
- Construction de ressources termino-ontologiques
- Etudes sémantiques (analyse distributionnelle)
- 1999 (avec C. Fabre) les verbes
4Le projet SYNTEX
- Objectif faire un analyseur syntaxique utile
- précis analyses aussi correctes, et complètes,
que possible - efficace temps de traitement raisonnables
(volume) - utilisable
- dans une large gamme dapplications (recherche
universitaire et applications industrielles) - sur des corpus de genres variés
- ? Un analyseur syntaxique opérationnel
- Operational syntax (Bar-Hillel, 1951)
- SYNTEX nest pas un  analyseur robusteÂ
5operational syntax Bar-Hillel (1951)
- A considerable body of descriptive data about
the language of the world has been amassed in
recent years, but so far no operational syntax of
any natural language exists with a sizeable
degree of completeness, and the necessity of
providing such a syntax has apparently not been
recognized by linguists. To give an analogy Just
as even the most extensive knowledge of all
imaginable properties of all chemical substances
will not materially assist a student of chemistry
in developing a method of analyzing a given
mixture of unknown chemical substances, so even
the most elaborate description of the properties
of all morphological units of a given language
will not enable a student of linguistics to find,
in a reasonable time, a method of analyzing a
given sentence-specimen of this language.
Chemists have had to write, in addition to their
general textbooks, special books instructing the
student on how to proceed in a fixed sequential
order (order which sometimes depends on the
outcome of the preceding step) in his attempted
analysis of a given mixture. Likewise special
books will have to be written containing
sequential instructions for linguistic analysis,
i.e. an operational syntax.
6Reconnaissance de formes
- Le problème de lanalyse syntaxique automatique
un problème de reconnaissance de formes - Toute séquence en entrée a une forme syntaxique
- La fonction de lanalyseur est de reconstituer la
forme de la séquence, au mieux - On peut scinder la résolution du problème en deux
tâches fortement indépendantes - Étiquetage
- Analyse
- Reconnaître une bonne forme vs. vérifier la bonne
formation - Il ne sagit pas de compilation, de calcul, de
résolution de problème - Approximation (droit à lerreur)
7Dépendance
- Les formes structures de dépendance
- Dans LEXTER constituance
- La dépendance sest naturellement imposée dès le
départ du projet SYNTEX. - Postulat dans une phrase, la présence de chaque
mot est légitimée par la présence dun autre mot - Tesnière (1959) Melcuk (1988)
gouverneur dépendant
8Dépendance
- Principe dimplémentation
- On peut décomposer le problème de la
reconnaissance de la forme dune séquence en
sous-problèmes élémentaires - pour chaque mot, retrouver son gouverneur
Le chat mange la souris grise.
9Modules
- Un module par relation SUJET, OBJET, PREP, ADJ,
etc. - En entrée le numéro dun mot source (gouverneur
ou dépendant) - En sortie le numéro dun mot cible (dépendant
ou gouverneur, via la relation) - Parcours
- Module algorithme qui décrit les parcours
licites dans la séquence étiquetée et
partiellement analysée entre un mot source donné
et un mot cible (gouverneur ou dépendant)
10Modules
- Deux types de module
- Parcours à orientation directe du gouverneur
vers un dépendant (ex. SUJET) - Parcours à orientation inverse du dépendant
vers le gouverneur (ex. PREP)
Le chat gris dort paisiblement sur le
paillasson.
11Contraintes
- Deux contraintes génériques
- Projectivité les liens de dépendance ne se
croisent pas - Unicité du gouverneur un mot a un seul
gouverneur - Fonctions élémentaires de déplacement
- Ces contraintes sont implémentées dans les
fonctions élémentaires qui calculent le pas de
déplacement dans le parcours - Principe  sauter les mots qui ne peuvent pas
être source (ou cible) dun lien sous peine de
violation dune des contraintes - Il y a 4 fonctions élémentaires
- selon lorientation (directe ou inverse)
- selon le sens (droite-gauche ou gauche-droite)
12Contraintes
- Illustration
- Calcul du pas de déplacement orientation
directe, droite-gauche
Unicité !
Projectivité !
a b c d e f
m
13Circularité
- Selon quelle stratégie déclencher les modules de
recherche de liens syntaxiques ? - Cascade chaque séquence sera traitée en
plusieurs passes - Relation après relation ? De gauche à droite ?
Combien de passes ? - Le problème antinomie entre
- (1) Lintrication des liens syntaxiques dans une
séquence - due à la propriété de concrétion (Milner,
1989) de la langue une difficulté syntaxique ne
vient jamais seule - (2) Le caractère séquentiel du traitement
informatique - ? circularité
14Circularité
- 2 ordres de séquentialité
- Ordre de traitement des mots dans la séquence (de
gauche à droite, de droite à gauche) - Ordre de traitements des relations (Sujet avant
ou après Objet, rattachement des prépositions
avant ou après les adjectifs, etc.). - Double circularité
- (1) pour reconnaître un lien syntaxique pour un
mot à telle place dans lénoncé, il faudrait
avoir déjà reconnu un lien à gauche, ou à droite,
et réciproquement. - (2) pour reconnaître un lien syntaxique de tel
type (Sujet, Objet, etc.) pour un mot de
lénoncé, il faudrait avoir déjà reconnu un lien
dun autre type pour un autre mot, et
réciproquement.
15Circularité
Il donne des bonbons à la fraise roses
Il donne des bonbons à la fraise roses
Jean aime le chat et le chien dort.
?
Jean aime le chat et le chien dort.
16Architecture
- Comment trouver la bonne stratégie
- Il nexiste pas de stratégie idéale accepter
lerreur, et la contenir - Eviter le piège de la complexité
- Complexifier progressivement larchitecture
- Architecture initiale simple
- Une passe par relation, dans cet ordre
coordination, objet, sujet, adjectif épithète,
préposition. - Aucun module ne remet en cause les relations ou
étiquettes placées par les modules antérieurs. - Chaque module résout ses ambiguïtés avant de
passer la main au module suivant.
17Architecture
- Architecture actuelle 3 types de relations
syntaxiques - 1- Relations locales
- 2- Relations non ambiguës SUJET, OBJET
- Lancer la recherche à partir du verbe
(orientation directe) - Choisir le premier nom libre
- 3- Relations ambiguës PREP, ADJ
- Lancer la recherche à partir du dépendant
(orientation inverse) - Ne pas sarrêter au premier gouverneur trouvé
(plusieurs gouverneurs candidats syntaxiquement
plausibles) - Désambiguïser !
- La coordination est traitée en une fois, après
les relations locales - Le  retour en arrière est autorisé
18Exemple
La fille de Marie lance la pelote de laine rouge
en_direction_du chat de Jean . D N P N
V D N P N A
P N P N
1- Relations locales
La fille de Marie lance la pelote de laine rouge
en_direction_du chat de Jean .
2- Relations non ambiguës
19Exemple
3- Relations ambiguës
Recherche des candidats gouverneurs
La fille de Marie lance la pelote de laine
rouge en_direction_du chat de Jean .
Désambiguïsation
20Désambiguïsation endogène
J'aimerais aussi participer quelques minutes au
rappel au règlement qui a été soulevé par mon
collègue.
Il sagit de la décision d'autoriser la
délivrance de la  pilule du lendemain aux
adolescentes dans les établissements scolaires.
21Désambiguïsation endogène
Je suis membre du comité chargé d'étudier les
modifications au régime d'assurance chômage.
Elles visent à attirer l'attention des Canadiens
sur une initiative politique très importante pour
notre pays.
Le ministre affiche sa volonté dune discussion
franche avec les syndicats.
Probabilité exogène (discussion,avec) 0,11
22Coordination
23Coordination
- Difficultés pour les approches formalisantes
- gapping coordination
- Jean aime Marie, et Paul Jeanne
- valency slot coordination
- Marie donne un livre à Jean et un stylo à Paul
- Difficulté pour un analyseur syntaxique
opérationnel - La relation de coordination interfère avec toutes
les relations syntaxiques des éléments
coordonnés sont susceptibles dêtre source ou
cible de tous les types de liens syntaxiques. - Lenchevêtrement des liens fait que cest avec la
coordination que le problème de la circularité se
pose avec le plus de gravité - à quel(s) moment(s) reconnaître les liens de
coordination ?
24Coordination
- Choix dimplémentation
- Après relations locales, en une seule passe
- Restriction isocatégoricité
- Les mots coordonnés sont de même catégorie
morphologique - Virgules coordinatives
- Une virgule à gauche dun élément coordonné est
testée comme une conjonction de coordination
Le crapeau bleu , blanc et rouge
25Coordination
- Cas difficiles
- Coordination de  de ou de Noms
Que ce soit au titre du Programme de
développement de l'emploi ou du nouveau Programme
de développement des collectivités. Il faut
aider les travailleurs de l'industrie du bois
d'oeuvre et du bardeau en vertu de la Loi de
soutien de l' emploi.
26Retour en arrière
- Remplacement de liens ou détiquettes
préalablement posés
OBJ
OBJ
SUJ
C'est grâce à elle qu il a séquencé ,
entre autres , le virus de la grippe.
Rel
Sub
OBJ
SUJ
Le Canada a une histoire relativement courte et
certaines régions ont une histoire encore plus
courte que d' autres.
27Retour en arrière
Les différents manuels et encyclopédies vendus
dans les librairies apportent leur lot de
renseignements pratiques et les petites fiches
décrivant les plantes qui les accompagnent
seront d'un grand secours pour les débutants.
Les compensations sur lesquelles ils n'ont
toujours pas réussi à se mettre d'accord .
Les nations arabes sur les territoires desquelles
on a prévu de forer le pétrole.
28Micro-syntaxe et macro-syntaxe
- Remise en cause de la notion de phrase
- (Blanche Benveniste, 2002)  Micro-syntaxe ,
 macro-syntaxe (Berrendonner, 2002)
 clause ,  période (Gerdes Kahane, 2006) - Dans SYNTEX
- la forme dune séquence juxtaposition de
clauses (projection dun mot non gouverné)
29Micro-syntaxe et macro-syntaxe
SPNom Dans certaines gammes , S trop de
cigares mal roulés, aux capes imparfaites,
présentent des arômes ternes et insipides ,
SPVinf sans parler de la contrefaçon, qui touche
de nombreux secteurs de la distribution
. SNom Une mesure impatiemment attendue par les
opérateurs concurrents de France-Télécom
SSub Si c'est un bon projet de loi , S il
me semble qu'il devrait mériter une vigoureuse
défense de la contribution qu'il apportera Ã
l'amélioration de la vie canadienne S Rivière
sortit pour tromper l'attente , cc et S la
nuit lui apparut vide comme un théâtre sans
acteur
30Evaluation campagne EASY
écart avec lanalyseur classé premier
écart avec lanalyseur classé deuxième
31Evaluation usages
- Diffusion
- Des dizaines de corpus analysés fournis
- SYNTEX installé dans une douzaine de laboratoires
(depuis 2006) - Usages
- Réseaux de syntagmes
- Construction de ressources terminologiques
- SYNOMIA (solutions de recherche dinformations
pour sites Web) -  Triplets (gouverneur, relation,
dépendant), 200 M mots Le Monde - Sémantique lexicale
- Corpus parallèles analysés
- ALIBI (alignement de mots par propagation
syntaxique, S. Ozdowska)
32 33Objet technique
- SYNTEX un projet en ingénierie linguistique
- Objectif dutilité
- Question quels savoirs sur la langue apporte le
projet SYNTEX ? - Le TAL, un domaine  écarteléÂ
- TAL théorique vs TAL pragmatique
- Linguistique et informatique
34Objet technique
- La philosophie de la technique de G. Simondon
-  Cette étude est animée par lintention de
susciter une prise de conscience du sens des
objets techniques. La culture sest constituée en
système de défense contre les techniques or
cette défense se présente comme une défense de
lhomme, supposant que les objets techniques ne
présentent pas de réalité humaine. Nous voudrions
montrer que la culture ignore dans la réalité
technique une réalité humaine, et que, pour jouer
son rôle complet, la culture doit incorporer les
êtres techniques sous forme de connaissance et de
sens des valeurs. (Simondon, 1958, p. 9) - SYNTEX est un objet technique
- Lignée, adaptation, auto-corrélation
35Lignée
- Une philosophie de linvention
- Les réalisations techniques apparaissent par
invention. -  Genèse concrétisanteÂ
-  Lunité de lobjet technique, son
individualité, sa spécificité sont les caractères
de consistance et de convergence de sa genèseÂ
(Simondon, 1971, p. 20) - Lignée analyseurs syntaxiques robustes
- Début des années 1990 apparition du concept de
robustesse - Â We think of robustness as the ability of a
language analyser to provide useful analyses for
real-world input texts (Aït-Mokhtar et al.,
2002) - Dès le début de la Traduction Automatique, on a
fabriqué des analyseurs syntaxiques
opérationnels
36Lignée
- Quelques travaux
- FULCRUM de P. S. Garvin (1967) Projet TDAP
(1958-1959) F. Debili (1982) Projet PLNLP, K.
Jensen et al. (IBM, 1980s) S. Abney (1990) J.
Vergne (1998) J.-P. Chanod et al. (1990-2000) - Pas dévolution cumulative des connaissances
- réitération deffort pour résoudre le même
problème dans des  conditions dambiancesÂ
différentes - Convergences
- Visée applicative
- Architecture en cascade (stratégie
 concentrique ) - Approche procédurale (vs. déclarative)
- Agnosticisme théorique
37Adaptation et auto-corrélation
- La caractéristique de lobjet technique est
dêtre un mixte dadaptation et
dauto-corrélation -  Lobjet technique est dune part un médiateur
entre organisme et milieu, dautre part une
réalité intérieurement organisée et cohérenteÂ
comme médiateur, il doit sadapter à des termes
extrêmes quil relie, et cest un des aspects de
son progrès daméliorer son couplage aux réalités
entre lesquelles il jette un pont mais cette
augmentation de complexité et de distance entre
les termes extrêmes doit être compensée par un
surcroît dorganisation et de cohérence entre les
différentes parties de lobjet technique le
progrès se fait par oscillation entre les progrès
de la médiation et ceux de lauto-corrélation.Â
(Simondon, 1971, p. 101-102)
38Adaptation et auto-corrélation
- SYNTEX
- Les termes extrêmes une séquence ? son analyse
syntaxique (correcte) - Les progrès de ladaptation portent sur les
modules de recherche de liens syntaxiques - Les progrès de lauto-corrélation portent sur
larchitecture de lanalyseur
39Adaptation
- Les progrès de ladaptation portent sur les
modules de reconnaissance de liens syntaxiques - Objectif augmenter la résistance de
lanalyseur, sa capacité à reconnaître des liens
syntaxiques dans des configurations surfaciques
complexes - ? en maintenant un taux de précision élevé
- Méthode essais/erreurs
- Tests systématiques et nombreux sur corpus
- else print et ediff-buffers Emacs
- Compétences requises
- Connaissances de grammairien
- Réflexes dingénieur
- Les progrès de ladaptation sont réguliers.
40Adaptation
En fait le navire qui , peu après Trafalgar ,
avait été pris par les Anglais au large de la
côte portugaise et avait servi longtemps dans la
Royal Navy était en si mauvais état que les
explosifs, au lieu de percer des trous dans la
coque comme il avait été prévu, la détruisirent
complètement
41Auto-corrélation
- Les progrès de lauto-corrélation se réalisent
par sauts qualitatifs -  Par contre, les progrès de
lauto-corrélation demandent une résolution de
problème, une invention qui pose un système
synergétique de compatibilité. Cette invention
peut être amenée par le besoin des progrès
relationnels, mais elle ré-engendre la logique
interne du système. (Simondon, 1971, p. 102)
42Auto-corrélation
- Les progrès de lauto-corrélation portent sur
larchitecture du système. - Objectif optimiser larchitecture du système
pour résoudre les problèmes liés à la circularité
(ordre de traitement des mots, ordre de
traitement des relations) - Principe
- Maîtriser la complexité (complexification
progressive) - Pousser à bout les capacités de médiation jusquÃ
atteindre des difficultés insolubles avec
larchitecture courante - Tests de non-régression
- Compétences ingénieur (inventivité)
43Auto-corrélation
-  Ré-engendrement de la logique interne
- Toute modification de larchitecture du système a
un impact sur la conception des modules, sur les
normes de conception - Exemples de modifications
- Retour en arrière
- Globalisation de la désambiguïsation
- Ã venir
- Répartition du traitement de la coordination
- Prise en compte de lambiguïté morphologique
- Néanmoins chercher à minimiser la dépendance de
la programmation des modules vis-Ã -vis de
larchitecture - Formalisation du parcours
44Savoirs
- Quels savoirs sur la langue apporte le projet
SYNTEX ? - Science et ingénierie linguistiques
- Les rapports entre science et techniques
- Â Les besoins pratiques ont contraint lHomme Ã
améliorer les techniques sans attendre le
développement de toutes les sciences () cette
avance est surtout caractérisée par le progrès
des adaptations et la relative précarités des
auto-corrélations cest en partie ce hiatus au
cur des techniques qui a fait ressentir le
besoin de sciences, tandis que les parties déjÃ
constituées des techniques offraient aux sciences
naissantes non seulement des problèmes théoriques
à résoudre (), mais encore des moyens
dexpérimentation le besoin dun complément
interne de linvention déjà adaptée est en fait
un appel au savoir scientifique. (Simondon,
2005, p. 232)
45Savoirs
- Cest du côté de lauto-corrélation
(architecture) quil faut chercher un éventuel
apport de connaissances. - Pas de  génération spontanée de connaissances
au sein du projet SYNTEX - Lidentification de savoirs ne peut résulter que
de la confrontation entre - les projets théoriques de description de la
syntaxe des langues, et - les choix méthodologiques et larchitecture
optimale construits dans le projet SYNTEX
46Savoirs
- Les points de discussion
- Reconnaissance de forme approximer la forme vs.
vérifier la bonne formation - Apprentissage endogène le corpus est sa propre
norme - Pas de recours à des domaines extérieurs
(sémantique, pragmatique) - 3 types de relations
- locales, non-ambiguës, ambiguës
- Dépendance et topologie
47Instrument
- Outil et instrument
- Â Loutil est lobjet technique qui permet de
prolonger et darmer le corps pour accomplir un
geste, linstrument est lobjet technique qui
permet de prolonger et dadapter le corps pour
obtenir une meilleure perception linstrument
est outil de perception. Mais un outil peut
servir dinstrument, cest-à -dire pour prélever
des informations sur la tâche quil permet
dexécuter. (Simondon, 2005, p. 58)
48Instrument
- SYNTEX en tant quinstrument
- Acquisition dun corpus de propriétés de
sous-catégorisation sur LM10 - pour SYNTEX (producteur et utilisateur)
- lexique disponible
- SYNTEX corpus diversifiés de grande taille
- INCAS
- Les voisins
- Extractions spécifiques
49INCAS
50Avenir
- Développement
- Unification de larchitecture anglais/français
- Répartition du traitement de la coordination
- Exploitation de ressources sémantiques (VDLM)
- Intégration de lambiguïté morphologique
- Confrontation aux théories syntaxiques
- Utilisation à lERSS
- Le discours
- La phonologie (liaison, prosodie)
- Diffusion
- Usages standards
- Attendre les détournements