Title: 16122003 Sminaire I3
1Interprétation et tâches documentaires
assistées par l'ordinateurInstrumentation
informatique du sens
- Vincent PerlerinUniversité de Caen GREYC
CNRS-UMR 6072perlerin_at_info.unicaen.fr - www.info.unicaen.fr/perlerin
2Plan
- Cadre détude
- constat
- propositions
- méthode de travail
- Nos propositions
- modèle de catégorisation lexicale
- analyses interprétatives
3Cadre d'étude
- Constat
- À propos des textes
- de plus en plus nombreux,
- de natures, de tailles () différentes.
- À propos des tâches documentaires
- on s'intéresse de plus en plus au contenu,
- il reste difficile à atteindre.
- À propos des solutions informatiques
documentaires - souvent beaucoup de ressources et de traitements,
- des ressources souvent dépendantes dune prise de
position culturelle spécifique, - peu de prise en considération des variations
entre utilisateurs et entre tâches. -
4Cadre d'étude
- Propositions
- Système documentaire
- prise en considération des variations entre
utilisateurs, - prise en considération l'interprétation de
textes, - qui est utile pour l'assistance à différentes
tâches - filtrer des documents en fonction de l'étude de
leur contenu, - détecter des parties intéressantes dans les
documents, - ordonner des ensembles de documents,
- analyser un fait linguistique particulier.
- Améliorer la machine en tant que
média à valeur ajoutée adapté à l'utilisateur
(ou à une communauté d'utilisateurs).
5Cadre d'étude
- Applications
-
- Informatique linguistique
- recherche documentaire, veille documentaire
- Linguistique informatisée
- analyse d'un fait de langue
6Cadre d'étude
- Méthode de travail
- approche centrée sur l'utilisateur,
- analyses sémantique légères,
- solutions multilingues,
- logiciels (publics) d'étude.
7Cadre d'étude
Mise à jour
Corpus
8Cadre d'étude
- Propositions
- Quelles données ?
- Comment les structurer ?
- Quelles analyses effectuer ?
- Comment présenter les résultats ?
- Comment assister l'utilisateur dans toutes
les phases où il est sollicité ?
Comment les définir ? Comment et
depuis quoi les acquérir ?
Comment les décrire ? Comment les classer ?
Comment procéder aux analyses ? Pour quels
résultats ?
Comment les rendre interprétables pour
l'utilisateur ?
Quelles tâches peut-on assister ? Dans
quelle mesure ?
9Propositions
- Cadre théorique
- La Sémantique Componentielle permet de décrire
des significations en contexte à l'aide de traits
sémantiques (sèmes). - "Du plus loin, que me revienne, l'ombre de mes
amours anciennes,du plus loin, du premier
rendez-vous, "ex "amours"
/sentiment/, /chair/ "ombre"
/flou/, /souvenir/ "rendez-vous"
/rencontre/, /chair/, /sentiment/ - L'isotopie (récurrence d'un même sème dans un
texte) permet la mise en place d'analyses
interprétatives. - "Que reste-t-il de nos amours ? Que restent-ils
de ces beaux jours ? ()Des mois d'avril, des
rendez-vous ?
2 Isotopies /sentiment/ - /chair/
10Principe général du système
Produire des résultats interprétables et utiles
LUCIAnalyser
RéviserLUCIABuilder
StructurerLUCIABuilder
AcquérirMEMLABOR
Acquérir?
Corpus
AnalyserLUCIAnalyser
11Propositions
- Acquisition supervisée
- Acquérir quoi ?
- des lexies pertinentes pour la tâche,
- des lexies significatives
- soit d'un domaine d'intérêt particulier (RD, VD)
- soit un phénomène linguistique donné (LI)
- des lexies "récurrentes".
- Comment ?
- utiliser des systèmes existants (Jacquemin,
Bourrigault, Chalendar, Ahonen-Myka). - envisager (tester) une solution "légère" pour
amorcer le processus.
12Aide à l'acquisition MEMLABORv1.2
- Extraction de graphies
- loi de Zipf liste d'exclusion
On peut également utiliser les statistiques de
cooccurrences de graphies pour - former des
lexies, - former des groupes de lexies qui
partagent potentiellement des
sèmes. (Hypothèses cohérence textuelle).
13LUCIA
- LUCIA (Located User-Centred Interpretative
Analyser) - Méthodologie de catégorisation
- Modèle pour une description componentielle et
différentielle - Modèle pour l'analyse interprétative de textes
14LUCIA
15LUCIA
Regroupement de plusieurs sèmes pour former une
table où l'on précise les points communs et les
différences entre lexies
16LUCIA
Un ligne d'une première table reliée à une
seconde par un lien d'héritage sémique.
17LUCIA
- A travers le choix des lexies et des sèmes, le
regroupement des sèmes et le choix des tables Ã
relier l'utilisateur - donne des indications sur la façon dont il parle
du domaine décrit, - donne des traces de ses pratiques langagières en
rapport avec la tâche qui l'intéresse, - crée des ressources personnalisées.
18LUCIA
- Sèmes partagés, sèmes propres
- Pour aider à la structuration et favoriser la
découverte d'isotopies, on préconise
l'utilisation de - sèmes partagés (possiblement entre plusieurs
domaines, ex sèmes dénotatifs, sèmes
"ontologiques") - sèmes propres (propres à un domaine)
- ex Axepression vs. température vs. couv.
nuageuse vs. agitation - sème propre à la météorologie
- Directionmonte vs. descend
- sème partageable entre plusieurs domaines
19LUCIABuilderv4.2
Logiciel Libre Licence GPL perlerin_at_info.unica
en.fr
20Analyses
- La base des analyses l'isotopie
- Isotopie
- effet de la récurrence d'un même sème dans une
entité syntagmatique. - Les analyses
- consistent à rechercher les isotopies dans les
documents en fonction des lexies qui s'y trouvent
et de leur catégorisation au sein des
dispositifs.
21Analyses
- Les dispositifs recèlent des significations
potentielles en contexte attendu. - Lors des analyses
- on lève l'ambiguïté sur le contexte en fonction
du nombre d'isotopies trouvées et de leur nature, - on relève statistiquement la présence des
isotopies pour assister la tâche en cours
(filtrage, (ré)ordonnancement, détection des
parties intéressantes, importance d'un phénomène
étudié). - Lorsque l'utilisateur observe les résultats
- il affirme/infirme la potentialité des
significations en fonction des représentations
présentées et peut modifier ses propositions
initiales.
22Exemple d'application RD
(5)
4
Représentations schématiques des documents
rapport d'exploration
2
1
3
23Projet LUCIA-RD
L'Europe en question. Avec plus de pragmatisme,
on fait l'Europe pour bénéficier d'avantages
compétitifs et d'économies d'échelles qui sont le
monopole des États-Unis, qui ensuite font ensuite
que leur richesse et leur puissance sont le
résultat de leur merveilleux système. C'est
l'union qui nous permettra de sauver notre modèle
continental et d'en prouver la valeur tant
sociale qu'économique, j'en ai la profonde
conviction. L'unilatéralisme ne prospère que
lorsqu'un pays surpuissant est opposé à une
myriade de faibles.
V'Europe en question. Avec plus de pragmatisme,
on fait l'Europe pour bénéficier d'avantages
compétitifs et d'économies d'échelles qui sont le
monopole des États-Unis, qui ensuite font ensuite
que leur richesse et leur puissance sont le
résultat de leur merveilleux système. C'est
l'union qui nous permettra de sauver notre modèle
continental et d'en prouver la valeur tant
sociale qu'économique, j'en ai la profonde
conviction. L'unilatéralisme ne prospère que
lorsqu'un pays surpuissant est opposé à une
myriade de faibles.
L'Europe en question. Avec plus de pragmatisme,
on fait l'Europe pour bénéficier d'avantages
compétitifs et d'économies d'échelles qui sont le
monopole des États-Unis, qui ensuite font ensuite
que leur richesse et leur puissance sont le
résultat de leur merveilleux système. C'est
l'union qui nous permettra de sauver notre modèle
continental et d'en prouver la valeur tant
sociale qu'économique, j'en ai la profonde
conviction. L'unilatéralisme ne prospère que
lorsqu'un pays surpuissant est opposé à une
myriade de faibles.
Bush et le reste du monde Avec plus de
pragmatisme, on fait l'Europe pour bénéficier
d'avantages compétitifs et d'économies d'échelles
qui sont le monopole des États-Unis, qui ensuite
font ensuite que leur richesse et leur puissance
sont le résultat de leur merveilleux système.
C'est l'union qui nous permettra de sauver notre
modèle continental et d'en prouver la valeur tant
sociale qu'économique, j'en ai la profonde
conviction. L'unilatéralisme ne prospère que
lorsqu'un pays surpuissant est opposé à une
myriade de faibles.
Pourquoi s'unir ? Avec plus de pragmatisme, on
fait l'Europe pour bénéficier d'avantages
compétitifs et d'économies d'échelles qui sont le
monopole des États-Unis, qui ensuite font ensuite
que leur richesse et leur puissance sont le
résultat de leur merveilleux système. C'est
l'union qui nous permettra de sauver notre modèle
continental et d'en prouver la valeur tant
sociale qu'économique, j'en ai la profonde
conviction. L'unilatéralisme ne prospère que
lorsqu'un pays surpuissant est opposé à une
myriade de faibles.
En fonction du corpus de départ, du point de vue
de l'utilisateur, de ses connaissances sur le
domaine et de la tâche on obtient des dispositifs
différents.
24Projet LUCIA-RD
Requête? (lexies des) tables "Politique
étasunienne" et "États dictatoriaux"
1e critères de filtrage et d'ordonnancement
- favoriser la présence des lexies de ces tables
et autres critères
États démocratiques
Institution politique
? sème Obédience pol. communisme valeur
"amérique" du sème Situation Géograph.
États dictatoriaux
Europe et USA
Politique étasunienne
2e critères de filtrage et d'ordonnancement
- favoriser la présence de certains sèmes
(indépendamment des tables) et/ou certaines
valeurs de sèmes.
Gouvernants
Politique française
- LUCIAnalyser
- détection des lexies des dispositifs
- détection des isotopies
- filtrage et ordonnancement en fonction des
critères de l'utilisateur (et des ressources
fournies)
25Projet LUCIA-RD
Moteur de recherche
LUCIAnalyser
ou
Ensemble des textes
liste de filtrées et (ré)ordonnancées
Représentations schématiques des documents
Rapport d'exploration
Informations obtenues du moteur - date
- taille Informations obtenues de l'analyse
- principales tables présentes -
principales isotopies trouvées
- Repérage
- des zones de texte,
- des zones de publicité,
- des zones de navigation
- Coloriage
- des zones de texte en fonction du nombre et de
la nature des isotopies trouvées
26Conclusion
- Atouts du modèle
- pas de distinction de "nature" ni de langue entre
les entrées des tables, - pas de représentation du monde mais une
représentation de la façon dont on en parle
(représentation adaptée aux variations), - modèle de représentation dynamique peut être
modifié en fonction de la tâche ou de
l'utilisateur, - peu de ressources (et peu de traitements ?),
- les processus mis en jeu, les ressources et les
résultats sont facilement interprétables, - pas d'utilisation d'un formalisme pour
"représenter le contenu" pas de perte par
rapport aux textes initiaux, -
- Inconvénients du modèle
- difficile à évaluer pour certaines tâches,
- la mise en place des dispositifs n'est pas un
exercice trivial,
27 28(No Transcript)
29Cadre d'étude
- Constat
- De quelles variations parle-t-on ?
- de langue (géographiquement située),
- de statut socio-culturel,
- du contexte de la tâche,
- des régularités langagières personnelles ou
communautaires, - des points de vue sur les domaines
(subjectivité).
- L'utilisateur doit s'adapter
aux systèmes et aux ressources
30Propositions
- Acquérir
- Décrire et structurer
- Utiliser
- acquérir des lexies depuis un corpus MEMLABO
R
- décrire leur signification en contexte LUC
IABuilder
- analyser des documents, produire des
résultats LUCIAnalyser
LUCIA Located User-Centred Interpretative
Analyser
31Projet IsoMeta
32Projet IsoMeta
- Interface de navigation dans le corpus
33Projet IsoMeta
34Projet IsoMeta
The Dow Jones, for instance, the thermometer of
Wall Street, which had fallen...
thermometer est utilisé au même titre que
graphics ou ratio, i.e. pour suggérer un objet
pour l'analyse et l'étude dans le domaine de la
bourse.
35Projet IsoMeta
This crash was due (...) to the vertiginous and
uncontrolled fall of the dollar, sign that the
storm will henceforth affect the financial
markets.
Isotopies
sèmes partagés
36Calculer sur la différence et la répétition
- Lors de la constitution des dispositifs
- les places vides
- les mise à jours (processus cyclique itératif)
- il est possible de mettre à jour les dispositifs
en fonction de l'expérience de l'utilisateur par
rapport au domaine ou par rapport à l'utilisation
des dispositifs. - Lors de l'analyse
- l'isotopie
- le sème différentiel
- statut des "lexies" dans les dispositifs
- il est possible de ne pas être exhaustif sur les
domaines traités et de ne pas tenir compte de
certains problèmes pouvant être levés par des
analyses syntaxiques par exemple.
- Limiter les ressources et les traitements
37Projet LUCIA-RD
Acteurs économiques
Rapports internationaux
Acteurs culturels
Europe
Politique européenne
États-Unis
États-Unis, superpuissance, suprématie,
hégémonie, mépris, clan Bush,
Rapport de force
Rapport Inamical
Rapports Int.
fort
économique
USA, États-Unis superpuissance, ...
fort
militaire
Corée du Nord,
38Structuration, description et
- .. catégorisation
- Problème
- Jusqu'où aller dans les descriptions en terme de
sèmes ? - Comment être certain de trouver des isotopies
lors des analyses ? - Comment faciliter la tâche à l'utilisateur ?
- Utiliser un modèle de description qui permet
- d'exprimer les points communs entre les lexies,
- d'exprimer les différences entre les lexies,
- ?de catégoriser les lexies en fonction des
significations envisagées. - C'est le modèle LUCIA (inspiré du modèle ANADIA
Courcil, Beust) -
39Applications
- Deux exemples d'applications
- Projet LUCIA-RD
- Objectif retrouver des documents traitant dun
sujet donné (veille et gestion documentaire) - Ressources 1 dispositif par domaine concerné
- Utilisation analyse, (ré)ordonnancement et
filtrage dune collection de documents - Projet IsoMeta
- voir Perlerin, Ferrari et Beust 2003
www.info.unicaen.fr/perlerin/recherche/publis.htm