Title: Classification automatique de textes
1Classification automatique de textes à partir
d'une analyse syntaxico-sémantique
Jacques Chauché, Violaine Prince, Simon Jaillet,
Maguelonne Teisseire
LIRMM CNRS-Université Montpellier 2 161 Rue Ada,
34392 Montpellier Cedex 5
Email xxx_at_lirmm.fr Page www.lirmm.fr/xxx avec
pour xxx chauche, prince, jaillet, teisseire
TALN 2003, Batz-sur-Mer, 11-14 juin 2003
2Problème
Chimie
AFP
REUTERS
Construction automobile
A G Information service
Associeted Press
Agences de Presse
China Online
Services Généraux
Syfia International
Services aux particuliers
Classement environ 5000 dépèches par jour
TALN 2003, Batz-sur-Mer, 11-14 juin 2003
3Exemple de dépêche
JOHANNESBURG, 1er sept (AFP) - Les sept plus
grands électriciens du monde, réunis dans le
groupe E7, ont souligné dimanche que l'un des
objectifs qu'ils se sont fixés pour leur action
future est d'assurer l'électricité à tous, lors
d'une rencontre en marge du sommet de la Terre à
Johannesburg. "Assurer l'énergie est un facteur
clé pour briser le cercle vicieux de la
pauvreté. L'important est d'examiner comment on
va procéder pour que les deux milliards de
pauvres dans le monde qui sont privés
d'électricité puissent en bénéficier", a affirmé
François Roussely, dirigeant du groupe public
français EDF et président du fonds de l'E7. Il a
indiqué qu'il faudra "près de 7 milliards
d'euros par an, pendant 25 ans, pour pouvoir
répondre à ce besoin" en proposant de construire
une coalition pour pouvoir mettre en application
cette initiative "Electricité pour tous".
Rappelant que dans les pays industrialisés,
comme en France, il a fallu plus de 50 ans avant
que l'énergie ne soit accessible à tout le monde
et notamment dans les zones rurales, il a
souligné que "aujourd'hui, nous devons agir
ailleurs dans le monde pour cette fin". "Faire
bénéficier tout le monde de l'électricité est
faisable", a-t-il dit. Le président de l'E7, E.
Linn Draper, Pdg d'American Electric Power, a
pour sa part souligné que pour pouvoir atteindre
cet objectif, "il faut améliorer le cadre
d'action et promouvoir une coopération entre les
gouvernements, les ONG, les autorités locales, et
le secteur de l'industrie électrique". Il a
réaffirmé les trois principes qui guident l'E7
dans son action rendre l'électricité
disponible, accessible, et faire en sorte que
son prix soit abordable. La ministre française
de l'Environnement et du Développement durable
Roselyne Bachelot a salué les "nombreuses
réalisations faites par l'E7 dans de nombreux
pays en développement" en soulignant que ces
actions étaient non dictées par un souci
commercial. Elle a souligné la nécessité de
mobiliser tous les acteurs pour cette initiative,
et appelé à un partenariat public-privé pour en
assurer le financement. "Le soutien du
gouvernement français vous est totalement
acquis", a-t-elle ajouté. nas/pc/chp f
425 mots - 11 phrases - Nb mots/phrases min 17
max 65 moy 40
Classement expert 7 ( affaires internationales)
Remarque le '.' n'est pas significatif d'une fin
de phrase (cf parties )
TALN 2003, Batz-sur-Mer, 11-14 juin 2003
4Méthode de classement
- Définition des référents à partir d'un
classement existant - Caractérisation des nouvelles dépêches par
rapports aux référents
Objet de base Vecteurs sémantiques
Vecteurs sémantiques
Lexème
Idées associées
- Idées
- Nombre fini
- Nombre constant pour toute application
- Dans notre expérience issues du thésaurus
Larousse
Vecteurs sémantiques 873 composantes
TALN 2003, Batz-sur-Mer, 11-14 juin 2003
5Opérations sur les vecteurs
- Composition somme
- Comparaison distance angulaire
- Composition syntaxique Somme sensitive
dépendant de la fonction - du syntagme
Exemple
Bateau 819 (transport maritime et fluviaux )
Voile 810 (textile) 848 (maison) 499 (moines)
688 (funérailles ) 399 ( aveuglement )
Voile à bateau
Bateau à voile
GN
GN
GNPREP
Bateau
Voile
GNPREP
À
À
Voile
Bateau
Composantes 810,848,.. renforcées
Composante 819 renforcée
Prise en compte des interractions bateau/voile
(diminue 499,688,399)
TALN 2003, Batz-sur-Mer, 11-14 juin 2003
6Espace vectoriel lexical
Autrefois 195 (passé) 201 (ancienneté)
(00...............................010....010......
..................................................
..0)
12...............................195....201.......
.................................................8
73
But des calculs détermination des concepts les
plus proches
Le lemme Logique fait référence à trois
idées Système, Raisonnement,Philosophie. Après
calcul le vecteur associé à ce lemme sera
fonction de son usage
Système
Piaget analyse formelle de la connaissance
Raisonnement
Camus la logique des passions renverse l'ordre
traditionnel du raisonnement
Philosophie
TALN 2003, Batz-sur-Mer, 11-14 juin 2003
7Le choix de la distance angulaire est déduit des
propriétés textuelles suivantes
- Le fait de répeter un terme ne change rien à la
signification de ce terme - l'Europe, l'Europe, l'Europe .... (Ch. De Gaulle)
- La longueur d'un texte ne doit pas influencer
son traitement par rapport à - un autre.
- Le postulat de base que nous utilisons la
sémantique absolue ne signifie - rien. Seule la sémantique relative peut être
prise en compte.
Conséquences
- Nous effectuons nos traitements sur la sphère
unité - Les mesures seront des mesures d'angle que nous
- appréhendrons par la fonction cos ( produit
scalaire) - pour des raisons d'efficacité.
TALN 2003, Batz-sur-Mer, 11-14 juin 2003
8Calcul du vecteur de phrase.
La logique étudie les méthodes de raisonnement.
1. Construction de la structure syntaxique
PH
GV
GN
GN
Étudier
Logique
La
GNP
Les
Méthode
Raisonnement
De
2. Affectation aux feuilles des vecteurs
sémantiques (moyenne de l'ensemble des sens)
3. Calcul des vecteurs de groupes et remontée
jusqu'à la racine
4. Localisation des vecteurs associées aux
feuilles par produit terme à terme des
composantes
5. Calcul final des vecteurs de groupes et
obtention du vecteur phrase à la racine
TALN 2003, Batz-sur-Mer, 11-14 juin 2003
9Vecteurs de texte, introduction et conclusion
Vecteur de texte barycentre des vecteurs des
phrases du texte
Vecteur introduction Chaque vecteur de phrase
est pondéré par sa distance par rapport au
début du texte. On utilise une hyperbole.
Vecteur Conclusion Calcul identique au vecteur
introduction mais la distance est calculée
par rapport à la fin du texte
Vecteur de catégorie.
1 catégorie -gt ensemble de textes
Vecteur de catégorie -gt centroïde des vecteurs
des textes
Nombre de textes nécessaires pour une catégorie
-gt stabilisation du centroïde
Expérimentalement 120/160 textes gt Choix de
150 pour l'application
TALN 2003, Batz-sur-Mer, 11-14 juin 2003
10Classification Traitement de trois vecteurs par
texte texte, intro et conclusion
Comparaison des vecteurs de texte avec les
vecteurs de catégories
- Plusieurs types de comparaisons
- Distance angulaire ( produit scalaire )
- Concordance ( mesure la façon dont la distance
angulaire est obtenue )
Concordance
- Fonction de l'écart entre le rang d'un concept
dans le vecteur texte - et le vecteur de catégorie
Soit i le rang d'un concept dans le vecteur texte
ce concept a donc la ième plus grande valeur
et j le rang de ce concept dans le vecteur de
catégorie l'écart de rang sera donc i j
- L'écart d'intensité correspond à la différence
de valeur pour un même - concept entre le vecteur de texte et le vecteur
de catégorie
La concordance est défine comme la somme des
éléments 1/(1 p) où p est le produit des écarts
TALN 2003, Batz-sur-Mer, 11-14 juin 2003
11Propriétés
- La concordance n'est pas une distance ( elle
n'est pas symétrique ) - Elle mesure l'adéquation entre deux vecteurs
quand l'un agit comme filtre - Elle agit de manière inverse à la distance
angulaire. - Si les deux vecteurs sont égaux alors la
concordance vaut 1.
Classement Pout tout texte on calcule un vecteur
de classement
- S' il y a k catégories le vecteur de classement
possède k composantes - Chaque composante correspond à un indice d'une
catégorie - Les indices sont rangés de telles manières que
le produit des concordances - pour chaque catégorie soit décroissant
Un texte peut donc être classé dans un nombre de
catégories quelconque avec un ordre de
préférence. Ce qui est le cas dans notre
application car les experts ont classé souvent
des textes dans plusieurs catégories.
TALN 2003, Batz-sur-Mer, 11-14 juin 2003
12Données expérimentales
Noyau de définition des catégories 2400 articles
/ 2555 liens
Corpus de vérification reste des 4843 textes
fournis
Objectif fournir une classification multiple
pour chaque article
Largeur de classification nombre de catégories
affectées à un texte.
TALN 2003, Batz-sur-Mer, 11-14 juin 2003
13Conclusion
- Méthode peu sensible à un entrainement
- ( faible différence entre le noyau et le corpus
de vérification )
- Lorsqu'une phrase n'est pas reconnue la
structure - fournie est partielle
Le vecteur de texte s'en trouve affecté
TALN 2003, Batz-sur-Mer, 11-14 juin 2003
14- Au cours de l'expérience le nombre de phrases
correctes était de 18
- Les résultats ont été obtenus avec un analyseur
- en cours de développement.
- Actuellement l'analyseur comporte plus de 6500
règles.
- Sur la troisième livraison ( 14000 textes,
220000 phrases ) - 26 de phrases sont correctement analysées
- ( plus de 60000 phrases, environ 3 000 000 de
mots ) - et on constate une amélioration sensible de la
classification
- Ce travail est mené en parallèle avec les autres
applications - du traitement algorithmique du langage (
notamment la - traduction ) et bénéficie des améliorations,
surtout pour - la désambiguïsation.
- Les données linguistiques ( grammaires,
dictionnaires ) sont accessibles - à l'adresse www.lirmm.fr/chauche
TALN 2003, Batz-sur-Mer, 11-14 juin 2003
15F I N
Structure syntaxique de la dépêche initiale
comportant 690 points
TALN 2003, Batz-sur-Mer, 11-14 juin 2003