Title: Une Prsentation de la LSA
1Une Présentation de la LSA
2LSA ?
- LSA Latent Semantic Analysis (Analyse
Sémantique Latente) - Développée par des psychologues au début des
années 1990 - Pour faire de l'extraction d'information
- résoudre les problèmes de polysémie et de
synonymie - Aujourd'hui la LSA est
- Un outil qui permet de déterminer les similarités
(au niveau du sens) entre des mots ou des
segments de texte - Une théorie expliquant l'acquisition et la
représentation du savoir
3LSA ? (2)
- A l'aide de l'analyse d'un très large corpus
- Idée de base
- Un segment de texte est une équation linéaire
- Son sens est (plus ou moins) la somme des sens
des mots qui le composent - s(seg) s(mot1)s(mot2)s(motn)
- Le sens d'un mot est la moyenne des sens des
segments dans lesquels il apparaît
4LSA ? (3)
- La LSA n'est pas basée sur le repérage de
co-occurrences de n-grammes (bigrammes,
trigrammes) - Plus de 99 des termes que la LSA juge similaires
n'apparaissent jamais côte à côte dans un
paragraphe
5Ne sont pas utilisés par la LSA
- Des dictionnaires
- Des bases de connaissances
- Des réseaux sémantiques
- Des grammaires
- Des étiquettes morpho-syntaxiques
- La LSA ne tient pas compte de l'ordre des mots et
des variantes morphologiques
6Les espaces sémantiques (1)
- Représentation mathématique dun ensemble
important de textes - Lieu de la comparaison entre segments et/ou
termes - Chaque mot un vecteur
- Chaque segment un vecteur somme des vecteurs
des mots le composant
7Les espaces sémantiques (2)
- Distance sémantique entre 2 mots ou 2 segments
- Cosinus de langle entre leurs vecteurs
- Cosinus proche de 1 distance sémantique faible
mots ou segments proches - Cosinus éloigné de 1 distance sémantique
importante mots ou segments nont pas un sens
semblable
8Exemples despaces sémantiques (1)
- Utilisés par les applications de base sur le site
de la LSA - Espaces anglophones
- Literature littérature anglaise et américaine
du 18ème et 19ème siècles ( de 57 millions de
mots) - Encyclopedia de 30 articles encyclopédiques
dont seuls les titres sont utilisés - Smallheart à partir d articles sur le cur
contient une phrase de chaque article
9Exemples despaces sémantiques (2)
- Espaces francophones
- Français-Production-Total textes écrits par des
enfants (7-12 ans) à l école primaire.Origine
France Belgique - Français-Livres 1, 2 3 livres publiés avant
1920 (1 2) ou récents (2 3) - Français-Contes-Total contes trouvés sur le Web
- Français-Monde 2 espaces 2 x 6 mois
darticles du monde (1993)
10Création des espaces sémantiques
- Etapes
- 1 - Création dune matrice de base mots/segment
- 2 - Opérations sur les cellules de la matrice
- 3 - Décomposition en valeurs singulières
- 4 - Reconstruction dune matrice mot/segment
après réduction de dimensions
11En entrée
- Du texte brut
- Ce texte est segmenté en mots
- 1 mot une séquence de caractères unique
- Mots regroupés en segments jugés (sémantiquement)
pertinents phrases et paragraphes
12Un exemple (1)
- En entrée 9 titres de mémos techniques
- 5 traitant de l'interaction homme-machine
- 4 traitant de la théorie des graphes
- (exemple repris plusieurs fois dans les papiers
sur la LSA)
13Etape 1 première matrice
- Le texte brut est d'abord entré dans une matrice
- Chaque ligne un mot
- Chaque colonne contexte (ex passage)
- Exemple
- Dans l'exemple, les auteurs ont choisi de faire
figurer en ligne les mots figurant au moins 2
fois dans l'ensemble des titres
14Un exemple (2)Matrice A
15Etape 2 préparation de la matrice
- Les fréquences dans les cellules subissent 2
transformations - Calcul du log de chaque fréquence 1
- Puis, calcul de l'entropie de chaque ligne (mot)
et division de chaque cellule de la ligne par
cette entropie - Pourquoi ? Permet de pondérer les mots
- Par rapport à leur importance dans les segments
- Pour aider à prédire dans quel segment ils
apparaissent
Entropie Notion utilisée en théorie de
l'information. Qualifie l'état de désordre d'une
source d'information. Plus elle est élevée, plus
il est difficile de prévoir l'information générée
par cette source.
16Etape 3 SVD
- SVD Singular Value Decompositionou
Décomposition en valeurs Singulières - La matrice de départ est décomposée en 3 matrices
- Une matrice orthogonale issue des lignes
- Une matrice orthogonale issue des colonnes
- Une dernière (matrice diagonale) contenant les
valeurs singulières - Soit A la matrice de départ et M, S C les trois
matrices dérivées par SVD - On a A MSCT
17Un exemple (3)SVD Matrice M
18Un exemple (4)SVD Matrice S
19Un exemple (5)SVD Matrice C
20Etape 4 Dernière matrice
- A partir des 3 matrices de l'étape précédente
- Réduction des dimensions à ce niveau
- Suppression de valeurs dans la matrice diagonale
avant le produit des 3 matrices - En commençant par la valeur la plus faible
- Produit des trois matrices
- On obtient une nouvelle matrice qui constitue un
espace sémantique
21Un exemple (6)Réduction de dimensions
Les auteurs choisissent de garder pour l'exemple
2 dimensions. On garde les plus élevées. Cela
revient à remplacer toutes les valeurs en vert
par zéro.
22Un exemple (7)Matrice M x S x C
23Applications LSA (1)
- Disponibles sur le site
- 5 applications de base
- Near Neighbors (voisins)
- Matrix Comparison (comparaison dans une matrice)
- Sentence Comparison (comparaison de phrases)
- One-To-Many Comparison (un comparé à plusieurs)
- Pairwise Comparison (comparaison deux à deux)
24Applications LSA (2)
- Commun aux 5 applications
- Le choix du Topic Space choix de lespace
sémantique dans lequel le(s) texte(s) soumis
va(vont) être analysés - Number of factors to use le nombre de facteurs
(dimensions) qui vont être utilisés pour
lanalyse.Par défaut la totalité des facteurs
de lespace sémantique choisi sont conservés - En entrée toujours du texte brut
25Near Neighbors
- En entrée terme ou texte court
- Paramètres supplémentaires
- Nombre de termes à renvoyer
- Fréquence minimum des termes à renvoyer dans le
corpus - Pondération ou non du texte d'entrée
- En sortie liste de termes proches dans l'espace
sémantique choisi du texte soumis avec le score
LSA correspondant
26Near NeighborsUn exemple (1)
- Texte soumis "arbre"
- Sans limite minimum de fréquence (f 0)
- Nombre de termes à renvoyer 5
- Espaces sémantiques (avec max factors)
- Français-Contes-Total (300 facteurs)
- Français-Livres1and2 (300 facteurs)
- Français-Psychology (300 facteurs)
27Near NeighborsUn exemple (2)
28Matrix Comparison
- En entrée n termes ou textes à comparer,
séparés par des lignes vides - Le type de comparaison
- Terme à terme ou document à document
- En sortie Une matrice de dimension n x n
- Chaque cellule contient le score de similarité
entre deux textes le cosinus de l'angle entre
ces deux textes dans l'espace sémantique choisi - Donc
- Avec score éloigné de 1 textes peu similaires
- Avec score proche de 1 textes très similaires
29Matrix ComparisonUn exemple (1)
- Pour essayer de mesurer la cohérence de la
titraille d'un texte - Titres du chapitre Entité/Association (P. Rigaux,
corpus du projet VISU) - Utilisation de l'application Matrix Comparison
- Chaque titre va être comparé à tous les autres
- Entrée
- Textes titres séparés par des lignes vides
- Espace sémantique Français-Total (300 facteurs)
(faute de mieux)
30- Comparaison "document to document"
- T1 Principes généraux T2 Bons et mauvais
schémas - T3 Anomalies lors d'une insertion T4
Anomalies lors d'une modification - T5 Anomalies lors d'une destruction T6 La
bonne méthode - T7 Le modèle E/A Présentation informelle T8
Le modèle - T9 Entités, attributs et identifiants T10
Attributs - T11 Types d'entités T12 Associations
binaires - T13 Entités faibles T14 Associations
généralisées - T15 Avantage et inconvénients du modèle E/A T16
Pour en savoir plus
31- Comparaison "term to term"
- T1 Principes généraux T2 Bons et mauvais
schémas - T3 Anomalies lors d'une insertion T4
Anomalies lors d'une modification - T5 Anomalies lors d'une destruction T6 La
bonne méthode - T7 Le modèle E/A Présentation informelle T8
Le modèle - T9 Entités, attributs et identifiants T10
Attributs - T11 Types d'entités T12 Associations
binaires - T13 Entités faibles T14 Associations
généralisées - T15 Avantage et inconvénients du modèle E/A T16
Pour en savoir plus
32Sentence Comparison(1)
- Pour mesurer la cohérence entre deux phrases
successives - En entrée un texte composé d'au moins 2 phrases
- Segmentation des phrases en fonction de la
ponctuation - Délimiteurs de fin de phrase . ? !
33Sentence Comparison(2)
- En sortie pour n phrases
- n-1 scores (appelés cohérence phrase à phrase)
1 pour chaque couple de phrases qui se suivent - Score cosinus de l'angle entre les phrases dans
l'espace sémantique choisi (donc
) - Données de sortie supplémentaires
- Moyenne des cohérences phrase à phrase
- Ecart Type (dispersion des valeurs par rapport à
la moyenne)
34Sentence ComparisonUn exemple (1)
- Phrases
- To compute the similarity of multiple sentences,
enter your text in the input box below. - Use normal punctuation to separate each sentence.
- Then press the 'Submit Texts' button.
- The system will compute a similarity score
between -1 and 1 for each submitted sentence
compared to next submitted sentence. - Espace sémantique encyclopedia (371 facteurs)
35Sentence ComparisonUn exemple (2)
- Résultat Sentence to Sentence Coherence
Comparison Results - The submitted texts' sentence to sentence
coherence
36Sentence ComparisonUn exemple (3)
- Mean of the Sentence to Sentence Coherence is
0.09 - Moyenne des scores 0.09
- Standard deviation of the Sentence to Sentence
is 0.04 - Écart Type 0.04
37One-To-ManyComparison
- En entrée un texte principal et une série
d'autres textes à comparer avec ce texte - Autres paramètres
- Type de comparaison terme à terme, document à
document, terme à document ou document à terme - Possibilité d'afficher la longueur des vecteurs
pour chaque texte - En sortie matrice contenant le score de
similarité entre le texte principal et les autres
textes dans l'espace sémantique choisi
38One-To-Many ComparisonUn exemple (1)
- Textes d'entrée
- One le titre "Attributs" du chapitre Entité/
Association - Many deux "textes" le premier paragraphe et
le reste du segment titré par "Attributs" - Espace sémantique Français-Total
- Type de comparaison document to document
- Question le premier paragraphe est-il plus lié
au titre que le reste du segment titré ?
39- Extrait utilisé
- Attributs
- Les entités sont caractérisées par des
propriétés le titre (du film), le nom (de
l'acteur), sa date de naissance, l'adresse, etc.
Ces propriétés sont dénotées attributs dans la
terminologie du modèle E/A. Le choix des
attributs relève de la même démarche
d'abstraction qui a dicté la sélection des
entités il n'est pas question de donner
exhaustivement toutes les propriétés d'une
entité. On ne garde que celles utiles pour
l'application. - Un attribut est désigné par un nom et prend ses
valeurs dans un domaine énumérable comme les
entiers, les chaînes de caractères, les dates,
etc. On peut considérer un nom d'attribut A comme
une fonction définie sur un ensemble d'entités E
et prenant ses valeurs dans un domaine D. On note
alors A(e) la valeur de l'attribut A pour une
entité e E. - Considérons par exemple un ensemble de films \f1,
f2, ... fn\ et les attributs titre et année. Si
f1 est le film Impitoyable, tourné par Clint
Eastwood en 1992, on aura - titre (f1) Impitoyable année (f1) 1992
- Il est très important de noter que selon cette
définition un attribut prend une valeur et une
seule. On dit que les attributs sont atomiques.
Il s'agit d'une restriction importante puisqu'on
ne sait pas, par exemple, définir un attribut
téléphones d'une entité Personne, prenant pour
valeur les numéros de téléphone d'une personne.
Certaines méthodes admettent (plus ou moins
clairement) l'introduction de constructions plus
complexes - les attributs multivalués sont constitués d'un
ensemble de valeurs prises dans un même domaine
une telle construction permet de résoudre le
problème des numéros de téléphones multiples - les attributs composés sont constitués par
agrégation d'autres attributs un attribut
adresse peut par exemple être décrit comme
l'agrégation d'un code postal, d'un numéro de
rue, d'un nom de rue et d'un nom de ville. - Nous nous en tiendrons pour l'instant aux
attributs atomiques qui, au moins dans le
contexte d'une modélisation orientée vers un SGBD
relationnel, sont suffisants.
40One-To-Many ComparisonUn exemple (3)
- Résultat
- One-To-Many Comparison ResultsThe submitted
texts' similarity matrix (in document to document
space) - Le score de similarité est plus important entre
le titre et le premier paragraphe ils sont plus
proches que le titre et le reste du segment titré
41Pairwise Comparison
- En entrée un nombre pair de textes
- Paramètre supplémentaire
- Type de comparaison terme à terme, document à
document, terme à document ou document à terme - En sortie
- Les textes de chaque paire(1er 2ème, 3ème
4ème, etc.) sont comparés - Pour chaque paire un score de similarité est
donné (cosinus)
42Pairwise ComparisonUn exemple (1)
- Liste de termes à comparer
- travail vacances politique sucette
- Espace sémantique choisi
- Français-Monde-Extended (300 facteurs)
- Type de comparaison terme à terme
- Résultats
43Applications utilisant la LSA
- Educational Text Selection
- Essay Scoring
- Summary Scoring Revision
- Cross Language Retrieval
- (permet de soumettre un texte dans une langue et
d'obtenir un texte équivalent dans une autre
langue)
44Educational TextSelection
- Permet de sélectionner automatiquement des textes
permettant d'accroître les connaissances de
l'utilisateur. - Etape 1 l'utilisateur entre un texte écrit par
lui montrant ses connaissances dans le domaine
correspondant à l'espace sémantique choisi - Etape 2 le système analyse ce texte et renvoie
le texte le mieux approprié à l'utilisateur pour
- Que l'utilisateur comprenne le texte proposé
- Apprendre de nouvelles choses sur le domaine
45Essay Scoring
- Application phare de la LSA
- Permet de noter la qualité d'une rédaction
d'étudiant - Exemple The Intelligent Essay Assessor
- Etapes de la notation par le IEA
- Sélection de l'espace sémantique
- Entrée de la rédaction (environ 250 mots)
- Analyse par le système et renvoi des notes
46IEA un exemple
47Summary Scoring Revision
- Système développé Summary Street
- 2 buts
- Apprendre à l'utilisateur à faire un résumé
- Évaluer le résumé
- Principe calcul du score de similarité (cos)
entre le résumé et le texte original - Comparaisons (aussi)
- Entre chaque phrase et chaque section du texte
- Entre toutes les phrases 2 à 2 identifier la
redondance et les répétitions
48Un exemple
49Facteurs Dimensions (1)
- Quel est le nombre de dimensions à conserver ? La
question n'est pas réglée et encore débattue. - Souvent, garder toutes les dimensions d'un espace
(environ 300) est optimal - Moins de 50 dimensions mauvais résultat
- Exemple Espace "encyclopedia"
- Possède 371 dimensions
- Des études montrent que le nombre optimal se
situe entre 275 et 350
50Facteurs Dimensions (2)
- Comment déterminer le nombre de dimensions
optimal pour un espace sémantique ? - En expérimentant.
- Un exemple le test du meilleur synonyme
- Evaluation de la LSA sur le test du TOEFL (Test
Of English as a Foreign Language) - Pour un terme donné, choisir dans une liste le
meilleur synonyme
51Facteurs Dimensions (3)
52Facteurs Dimensions (4)
- Avec un nombre de dimensions optimal, le taux de
réussite au test de sélection de synonyme du
TOEFL par la LSA - 65
- Score identique à une majorité d'étudiant qui ont
passé ce test.
53Points faibles de la LSA (1)
- Les espaces sémantiques peuvent ne pas convenir
- Le texte soumis peut n'appartenir à aucun domaine
représenté - Lequel choisir dans ce cas ? L'analyse
sera-t-elle pertinente ? - Certains termes ne figurent pas dans les espaces
sémantiques et ne sont pas pris en compte dans
l'analyse
54Points faibles de la LSA (2)
- Possibles problèmes de segmentation ou de codage
- Exemple
- WARNING the words l 'acteur l 'adresse
dxeexnotxeexes e a d 'abstraction a n 'est d
'une l 'application do not exist in the corpus
you selected.results can be seriously flawed. - La LSA n'utilise aucune notion de syntaxe
- Elle ne tient pas compte de l'ordre des mots
- Exemple pour la LSA, "John est le père de
Julie" "Julie est le père de John"
55Points faibles de la LSA (3)
- La LSA ne gère pas d'autres phénomènes
- La négation
- Les anaphores
- etc.
- La LSA ne gère pas les variantes morphologiques
- Exemple arbre ? arbres
- La LSA ne peut pas générer du texte même si le
sens qu'on veut exprimer est représenté dans
l'espace sémantique
56Dérivés
- LSI Latent Semantic Indexing
- LPSA Latent Problem Solving Analysis
- Etc.
57Le mot de la fin
- La LSA possède un certain nombre de défauts.
Mais - "If you are going to apply LSA, try to use it for
what it is good for." (Tom Landauer)