Title: Lanalyseur syntaxique Fips
1Lanalyseur syntaxique Fips
- Eric Wehrli, Luka Nerima
- LATL-Département de linguistique
- Université de Genève
- Eric.Wehrli_at_unige.ch, Luka.Nerima_at_unige.ch
- http//www.latl.unige.ch
2La recherche en TAL au LATL
- Développement dune plateforme multilingue pour
le traitement automatique des langues - Analyseurs, étiqueteurs, phonétiseurs,
extracteurs terminologiques, générateurs de
phrases, etc. - Cur du système lanalyseur Fips
- Analyseur syntaxique profond , basé sur une
interprétation assez libre de la théorie de la
grammaire générative chomskyenne - Quelques propriétés de Fips
- analyseur ascendant, avec une stratégie
dattachement à droite - traitement parallèle des alternatives
- recours à des heuristiques pour limiter le
nombre dalternatives
3Le modèle de grammaire
- Basée sur le modèle chomskyen des principes et
paramètres, ainsi quen partie sur le modèle
minimaliste. - Toutes les structures syntaxiques obéissent au
même schéma -
- où X (? N, V, A, D, P, Adv,Conj) est la tête
de la projection XP, L et R sont des listes de
projections maximales (les sous-constituants
gauches et droits du syntagme XP). - Les attachements à gauche et à droite sont
décrits dans un (pseudo) formalisme, à la fois
relativement intuitif et facile à encoder.
XP L X R
4Le mécanisme de projection
- Crée une projection syntaxique
- soit à partir dun item lexical
- X --gt XP X ? N, V, A, D, P, Adv, Conj
- projection étendue (métaprojection)
- verbe conjugué --gt
-
-
-
-
- pronoms et noms propres --gt DP
TP
VP
T
5Combinaison (merge)
- Combine deux projections adjacentes A et B
- attache A comme sous-constituant de B
- (attachement à gauche)
- attache B comme sous-constituant dun nud actif
sur larête droite de A (attachement à droite)
A
A
B
B
6Procédure dattachement coin droit
Pile de nuds actifs
TP
VP
DP
NP
DP
Jean
a
lu
un
poème
7Exemples de règles dattachement à gauche
- AP NP
- a.AgreeWith(b, number, gender)
- a.HasFeature( prenominalAdj)
- DP TP
- a.AgreeWith(b, number, person)
- a.IsArgumentOf(b, subject)
- DP PP
- b.HasFeature(postposition)
8Exemples de règles dattachement à droite
- NP AP
- a.AgreeWith(b, number, gender)
- b.HasFeature( prenominalAdj)
- VP DP
- b.IsArgumentOf(a, directObject)
- PP DP
- a.HasFeature(preposition)
- a.EmptyRight()
9Grammaire procédurale
- La partie procédurale de la grammaire de Fips
comprend - Un mécanisme de construction de chaînes
(mouvement-wh, constructions clitiques dans les
langues romanes, etc.) - Un mécanisme de traitement des structures
prédicat-arguments (verbes, noms, adjectifs
prédicatifs) - La structure argumentale est spécifiée dans
lentrée lexicale (nombre et type des arguments
fonction grammaticale et attributs, par ex. type
de la préposition pour un argument de catégorie
PP, type de phrase pour un argument S, etc.).
10Opérations sur la structure argumentale
- Certains processus grammaticaux modifient la
structure argumentale dun prédicat - Le passif
- peut être vu comme un processus dabsorption du
sujet, soit en syntaxe (anglais, langues romanes,
etc.), soit dans la morphologie (hongrois,
japonais, latin, etc.). - Constructions causatives
- En français, la construction faire Vinf est
analysée comme un processus de modification de la
structure argumentale du verbe infinitif par
ladjonction dun argument supplémentaire (le
sujet du verbe faire ), ce qui provoque le
reclassement du sujet du verbe infinitif sous la
forme dun objet direct ou dun objet indirect. - Paul corrige cette épreuve
- Jean a fait corriger cette épreuve à Paul
- Jean lui a fait corriger cette épreuve
11Identification des collocations
- Les collocations associent deux unités lexicales
qui entretiennent un rapport syntaxique étroit,
soit de modification, soit de complémentation. - La procédure de reconnaissance intervient au
moment de lattachement dun constituant. - Paul est un gros fumeur
- Paul a battu son record du saut en longueur
- Le mécanisme de chaînage permet dexprimer la
relation entre position de surface et
position profonde . - Le record quelle a battu datait dune dizaine
dannées - Ce record, Jean le considère comme difficile à
battre
12Catalogue des lexiques
- lexique monolingue
- mots
- mots composés (mots contigus)
- lexique des collocations
- combinaison arbitraire et récurrente de mots, non
nécessairement adjacents, nombreuses
configurations syntaxiques - p.e. exercer - profession, république bananière,
code de la route - contient aussi les idiomes - avaler la pilule,
promettre la lune
13Schéma conceptuel du lexique monolingue
1
lt est réalisé par
Lexème
Paradigme flexionnel
forme de base
autre forme
xor
Nom
Verbe
Adj
Prep
Det
1
type Nom traits Nom
type V traits syn traits sem
traits Adj
type
type
Mot
Variante
varie 1
graphie alternative type variante
chaîne orthographique chaîne phonétique
Nom
Verbe
Adj
genre nombre
pers. temps mode
genre nombre
0..1
(0)1..4
0..1
Arg N
Arg V
Arg Adj
fct gram fct thema traits sel
fct gram fct thema traits sel
fct gram fct thema traits sel
association
généralisation (est un)
composition
14Le lexique des collocations
- ensemble d'associations binaires ditems lexicaux
Item lexical
2
associe
Collocation
Lexème
chaîne orthographique type (configuration
syntaxique) traits de figement
- définition récursive de la collocation
- permet de prendre en compte des collocations gt 2
termes - p.e. tomber en panne sèche, arme de destruction
massive
15Interface monolingue
16Interface monolingue
17Interface monolingue - insertion
18Interface monolingue - insertion
19Interface monolingue - insertion
20Interface monolingue - insertion
21Interface collocation
- pour l'entrée manuelle des collocations
- outil d'assistance sophistiqué
- 1) analyse de la collocation entrée (Fips)
- 2) propose les unités lexicales (base et
collocatif) - 3) détermine le type de la collocation
- 4) détermine les traits de la collocation
22Interface collocation - insertion
23Lexiques - quelques chiffres
- lexèmes
- fr 40163 entrées
- mots
- fr 237729 entrées
- collocations
- fr 14091 entrées
24Conclusion
- Lexpérience accumulée avec les différentes
versions de lanalyseur Fips a permis daffiner
(et souvent de simplifier) par étapes la
structure et limplémentation de ce modèle
danalyseur, jusquà la version actuelle. - Le double choix dun modèle linguistique abstrait
(théorie chomskyenne) et dune modélisation basée
sur la notion dobjets se révèle judicieux pour
la réalisation dun analyseur multilingue. - Lévaluation dun analyseur syntaxique est une
opération difficile, qui na pas encore été
entreprise pour lanalyseur Fips. En attendant
les résultats de la campagne dévaluation
PASSAGE, nous pouvons faire état des quelques
chifffres suivants - gt 80 danalyses complètes (anglais et français)
sur des corpus journalistiques - 0,2 de mots inconnus (hors noms propres)
- Temps de traitement 100-250 mots/seconde.