Title: Intex: une plateforme pour les grammaires locales
1Intex une plate-forme pour les grammaires locales
Du concordancier au moteur danalyse par
grammaires locales Antonio BALVET Paris X, UMR
MoDyCo Thales RT
2Automates/transducteurs à états finis
- Automates, définition simplifiée
- Un automate à états finis est un dispositif
algorithmique décrivant un ensemble de mots
(alphabet) et de phrases (séquences)
reconnues. - Les automates à états finis possèdent des
propriétés algorithmiques intéressantes ils
garantissent des traitements en temps
acceptable . - Ex (grep, search)
- grep toto .txt
3Automates/transducteurs à états finis
- Transducteurs, définition simplifiée
- Un transducteur à états finis est un dispositif
algorithmique qui représente un ensemble de
séquences en entrée et qui leur associe des
séquences produites en sortie. Un transducteur
permet de modifier les séquences en entrée
(effacement, remplacement). - Ex (sed, search replace)
- s/toto/tata/g .txt
4Grammaires locales
- Définition simplifiée
- Une grammaire locale définit un ensemble de
séquences reconnues (langage) par
conjonction/disjonction/négation dautomates ou
transducteurs à états finis. - Les grammaires locales peuvent être utilisées
pour une analyse syntaxique partielle en
contexte elle nont pas pour vocation de décrire
lensemble de la grammaire dune langue. Elles
sont bien adaptées pour des tâches relativement
spécialisées. - Ex grammaire des noms de personne (expression
régulière) - A-Za-z
5Concordancier
- Définition
- Un concordancier est un outil informatique
permettant dexplorer des corpus textuels afin de
mettre en évidence certaines constructions
particulières ainsi que leurs contextes
doccurrences. Ces constructions peuvent être
définies par le linguiste en ayant recours à des
grammaires, locales ou non. - Ex KwicFinder, MonoConc, Cue
6Exemples dapplications dun concordancier
- Études sur corpus
- Ex oppositions entre les termes relevant de
lamour et du devoir dans des phrases de La femme
de trente ans (H. de Balzac)
7Exemples dapplication dun concordancier
- Maman !" dit Hélène en s'éveillant. A ce mot,
Julie fondit en larmes. Lord Grenville s'assit et
resta les bras croisés, muet et sombre. "Maman !"
Cette jolie, cette naïve interpellation réveilla
tant de sentiments nobles et tant d'
irrésistibles sympathies, que l'amour fut un
moment écrasé sous la voix puissante de la
maternité. Julie ne fut plus femme, elle fut
mère.
8Exemples dapplication dun concordancier
- Requêtes syntaxiques
- Structures comparatives dans La femme de trente
ans
9 produisant d' inexplicables
fantaisies, apparaît comme un spectre noir et
décharné. Puis, dans ne ! Hélène !" lui dit-il.
le chien bondit comme un lion, aboya
furieusement et s'élança da re débordé par cette
foule empressée et bourdonnant comme un essaim.
"Cela sera donc bien be , blancs, jolis, à
tourelles sculptées, brodés comme une dentelle de
Malines un de ces château stitution délabrée de
Julie, il l'avait cultivée comme une fleur rare
peut l'être par un hortic ême. En peu d' instants
mon enfance est devenue comme un songe. Ma
contenance pendant la journé nglais. Ces regards
périodiques étaient devenus comme une habitude
pour elle, et chaque jour el e-t-on pas aux
vieillards lorsqu'ils s'effacent comme des ombres
et ne veulent plus être qu'un rayons les couleurs
de cet incendie. c' était comme un réseau, comme
une écharpe qui voltigeait ratitude que la
marquise regardait peut-être comme une punition.
Elle cherchait des excuses à s est à Tours, il
n'a vu personne, il est fier comme un paon mais
vous avez
10Quelques caractéristiques dIntex
- Un format de représentation uniforme les
transducteurs à états finis - Un pouvoir expressif accru par le recours aux
grammaires imbriquées (ATN) - Préparation des textes
- Grammaires de découpage en phrases
- Listes associant un ensemble dinformations
morphosyntaxiques à une entrée lexicale, simple
ou composée - Grammaires locales utilisées comme dictionnaires
grammaire des chiffres romains - Tables du lexique-grammaire expressions figées
- Grammaires locales utilisées comme requêtes
11Un moteur générique danalyse de textes par
grammaires locales
- Format explicite de représentation
- Une grammaire locale Intex consiste en une
description des séquences à reconnaître,
éventuellement associée à une spécification des
séquences à réécrire - Possibilité davoir recours à des bases de
données lexicales (tables du lexique-grammaire) - Meilleure lisibilité par rapport à des
expressions régulières - Représentation graphique boîtes reliées par des
chemins - Possibilité dutiliser les fonctions Intex sans
passer par linterface-utilisateur - Enchaînement de scripts batch
- Api Intex (V 4.30)
12 Graphes Intex vs. expressions régulières
13 Graphes Intex vs. expressions régulières
(\(\)ltMOTgt(-ltEgt)((ltMOTgtltEgt)\,\\\.\/\!\\-
\ltMOTgt(ltEgt-)(ltMOTgtltEgt))(\\))
14Un exemple dapplication Corail
- La tâche de filtrage dinformation
- Activité de push
- Décision de sélection binaire oui/non
- Contrainte de temps réel
- Filtrage dinformation par grammaires locales
- Intex comme moteur danalyse
- Paramétrage des ressources Intex
- Automatisation des étapes de traitement
linguistique (transformations) - Représentation de lensemble des profils sous la
forme dun méta-automate - Marquage des séquences reconnues post-traitement
15Édition de filtres
16Consultation des filtrats
17Intex Corail
- Un premier bilan
- Faisabilité
- Démonstrateur opérationnel
- Performances
- Temps de traitement dune dépêche AFP 10
secondes - Utilisabilité
- Tests en interne sur la lisibilité de filtres
présentés graphiquement - Extensibilité
- Mise en uvre dun démonstrateur pour langlais
(AP) - Ajout de nouvelles ressources
- Qualité
- Dépendante du domaine
18(No Transcript)
19(No Transcript)
20Entreprise N0 V Const N1 PPV
(VPVFVKms) Const Capital
Entreprise
Axa OK se désengage ltEgt
ltactifgt AAL
21Autres applications potentielles
- Didactique des langues
- Repérage des mots composés, expressions figées et
autres locutions - Terminologie
- Extraction de termes et de leurs variantes
- Cf C. Domingues 2000, Etude doutils
informatiques et linguistiques pour laide à la
recherche dinformation dans un corpus
documentaire - Vérification de conformité correction
grammaticale, stylistique, aide à la traduction - Cf A. Chrobot 1999 (TIA 99), Extraction
terminologique en anglais basée sur des
dictionnaires généraux et spécialisés