Title: Construction de super-classes
1Construction de super-classes à partir de la
carte de KohonenEtude de la robustesse de la
carte.
- Marie Chavent, Antonio Ciampi, Olivier Elemento,
Aicha El Golli, Yves Lechevallier - Karim Terbeche
- Yves.Lechevallier_at_inria.fr
2Introduction
- Notre approche intègre Kohonen Self Organizing
Map avec dautres méthodes de classification. - Dans la première étape, SOM réduit de manière
importante les données et rend, ainsi, les
méthodes de classification hiérarchiques
accessibles. - Dans la seconde étape, nous proposons une
modélisation des classes obtenues afin de pouvoir
utiliser une méthode de classification optimisant
les paramètres de cette modélisation. - Cette approche est illustrée par un exemple de
données de nutrition dEPIC.
3Notre approche
Au départ on réalise une réduction des données
par les cartes topologiques de Kohonen. Après
les mesures individuelles sont remplacées par des
mesures agrégées qui sont calculées sur les
neurones représentant les micro-classes. Ces
micro-classes sont maintenant traitées comme des
nouvelles boites qui sont représentées par
une distribution gaussienne multi-dimensionnelle
ou par un intervalle de variabilité . Après
les micro-classes sont regroupés pour produire un
nombre réduit de super-classes.
4Méthodologie
- Cette approche comporte 4 étapes
- étape 1 Réduction des données par les cartes
de Kohonen - Le tableau de données original est réduit en un
certain nombre de micro-régimes où chaque
individus est assigné à un seul de ces
micro-régimes. - étape 2 Relation entre centres et micro-régimes
- Calcul de la moyenne et de la matrice de variance
et covariance de chaque micro-régime. - étape 3 Classification sur les micro-régimes
- La méthode de classification divisive est
utilisée pour obtenir une première définition des
régimes. - étape 4 Description des régimes
- Chaque régime va être décrit par un Zoom Star
en utilisant les 8 variables les plus
discriminantes
5Les données
- Une étude multi-centres longitudinale de cohorte
dont le but est une meilleure compréhension de
leffet de la nutrition, par lanalyse des
variables métaboliques et dautres facteurs relié
au style de vie, sur le risque de cancer. Les
données portant sur le régime alimentaire sont
maintenant disponible sur plus de 500.000 sujets.
- Nous remercions le Dr. F. Clavel pour nous avoir
permis danalyser les données de son étude, et le
Dr. E. Riboli pour nous avoir guidé à comprendre
la complexité et les enjeux du projet EPIC . - Base de données des températures mensuelles de 60
stations météorologiques chinoises depuis un
siècle. Lobjectif est de classer les profils
annuels de ces stations.
6étape 1 Réduction des données par les cartes de
Kohonen
- Les cartes de Kohonen sont utilisés pour
visualiser des structures complexes issues de
grands tableaux de données par projection sur une
grille (comme à la TV) sachant que les propriétés
de la structure de données sous-jacente doivent
être vues sur lécran.
7Étapes de lalgorithme
Initialisation
Initialisation par lanalyse en composantes
principales
Étape dallocation
Sélection aléatoire de lindividu s et
détermination du neurone gagnant c, sachant
que c arg mini d(s,mi) )ooù d est la
distance entre s et le prototype mi
Étape de représentation
Mise à jour des pondérations de tous les neurones
i appartenant au voisinage de c par
où mi(t) est la description du i, at est
utilisé pour assurer la convergence, h(c,i,t)
est la fonction de voisinage entre c et i.
Revenir à létape dallocation si cette règle
nest pas vérifiée.
Règle darrêt
8Algorithme de gradient stochastique
On choisit un f0 dans l'espace F, ensemble des
solutions. à l'étape t on effectue un tirage
aléatoire suivant la loi P. On obtient une
réalisation zt on procède à la mise à jour par
la formule suivante
la suite de termes at positifs doit vérifier
9Fonction de voisinage
Courbe de cette fonction de voisinage
a
d2(i,c)
10Initialisation
Notre choix est dutiliser les résultats dune
analyse en composante principale appliquée à la
matrice des données à la fois dans le choix de
larchitecture de la carte et dans
linitialisation. Il est en effet utile de
choisir les dimensions de la grille, a et b (avec
R ab) de telle sorte que
où ?1 et ?2 sont les deux premières valeurs
propres de lanalyse en composante principale.
Les poids des connections initiaux et les
positions des prototypes sont déterminés à partir
des deux premiers vecteurs propres
11Tableau de données
- Nous avons pris un sous-ensemble de la population
de lEPIC constitué de 4852 femmes françaises
distribuées dans 7 centres. - Les variables sont 16 variables continues
- Potatoes and other tubers Fish and Shellfish
- Vegetables Eggs and eggs products
- Legumes Fat
- Fruits Sugar and confectionery
- Dairy products Cakes
- Cereals and cereals products Alcoholic beverages
- Meat and meat products Condiments and Sauces
- Soups and bouillon Miscellaneous
12Cercle de correlation entre les variables
13Initialisation par lACP
A chaque sommet de la grille on associe un
neurone et son vecteur de pondération qui est sa
position dans cet espace de dimension
14Kohonen Map
Chaque boite représente un neurone et lensemble
des individus associés par létape dallocation.
A chaque boite vous avez leffectif et son profil
calcul sur les 16 variables
152 micro-régimes visualisés par Zoom Stars
16étape 2 Relation entre centres et boites
17Résumés de la matrice originale
- Pour chaque boite nous résumons les vecteurs
de mesure des individus de cette boite par de
nouvelles mesures agrégées associées à cette
boite - Deux modèles de représentation
- Par une distribution gaussienne
- Par un intervalle de variation
18Dissimilarité entre micro-classes
Un avantage ultérieur de la réduction de Kohonen
est que les vecteurs des moyennes sur les
micro-classes sont asymptotiquement distribués
selon la distribution normale. Cest une
propriété importante, car elle permet de définir
une mesure de dissimilarité entre micro-classes
particulièrement bien appropriée. Lobjectif est
la découverte de classes ou régimes alimentaires
constitués de micro-classes ou micro-régimes.
19Distance entre micro-classes
La distance est la statistique du rapport de
vraisemblance entre lhypothèse que m et m? sont
distribués selon deux lois différentes et
lhypothèse quils sont distribués selon la même
distribution. On a alors
20Algorithme de la classification ascendante
hiérarchique CAH
(a) initialisation On se donne au départ la
partition constituée de N classes
On se donne un indice dagrégation
qui vérifie
(b) Étape agrégative
Construire une nouvelle partition
contenant K classes à partir de la partition
contenant K1 classes en réunissant les
deux classes de les plus proches au
sens de la mesure dagrégation D.
(c) Recommencer létape (b) jusquà obtenir une
seule classe, cest-à-dire la partition grossière.
21La formule de récurrence de Lance et Williams
Il est nécessaire de recalculer lindice
dagrégation entre la nouvelle classe ainsi
formée et les autres classes de la partition.
Lance et Williams en 1967 ont proposé, lors du
regroupement des deux classes , la formule de
récurrence suivante
lien minimum
lien maximum
laugmentation de linertie ou indice de WARD
22étape 3 Classification sur les micro-classes
Cette méthode (Chavent 1997, 1998), présentée ici
dans le cas particulier des variables de type
intervalle, divise à chaque étape une classe en
fonction d'une question binaire et du critère
d'inertie A chaque étape, la méthode définit la
question binaire qui induit la bipartition
dinertie intra-classe minimum.
23DIV méthode de classification divisive
- Les K partitions de notre ensemble dindividus
- Hiérarchie indicée
- Chaque nœud représente une classe
- Chaque classe peut être décrite par une règle
24Questions binaires
variable continue
Variable qualitative
X gt 3.5 ?
- Dans le cas dune variable continue on évalue
toutes coupures possibles cest-à-dire au maximum
n-1 - Pour une variable qualitative ordonnée Y, on
évalue ainsi au maximum m-1 bipartitions - Dans le cas d'une variable qualitative non
ordonnée, on se heurte vite à un problème de
complexité, le nombre de dichotomies du domaine
d'observation étant alors égal à 2m-1-1.
25Algorithme récursif
- Initialisation
- lensemble E forme la partition grossière
- Étape k
- Diviser lune des k classes de la partition en
deux classes - En sélectionnant une des questions binaires qui
optimisent un critère dévaluation défini sur la
partition, - En utilisant cette question binaire pour générer
deux sous-classes, - Remplace la classe précédente par deux nouvelles
feuilles associées à ces sous-classes (arbre
binaire) - Revenir à létape k tant que k est plus petit que
le nombre de classes donné a priori.
26Critère dévaluation
Soit P(P1,,PK) une partition en K classes
Critère dévaluation W(P) doit être additif
Exemple Inertie intra-classe
La réduction du critère dévaluation revient à
maximiser le gain D(Q) associé à la question
binaire Q de découper la classe C et deux classes
C1 et C2
B étant lensemble des questions binaires
admissibles
27Algorithme divisif
- Étape 1 Tous les objets dans la même classe C
- Étape 2 Diviser successivement chaque classe C
en deux classes (C1,C2) en fonction du critère de
linertie intra-classes - étape 2.1 pour chaque variable X , trouver la
coupure s qui maximise - D(X,s/C)w(C) - w(C1)-w(C2)
- étape 2.2 choisir la variable X et la coupure
s - D(X,s/C)max D(X,s/C)
- étape 3 diviser la classe C en (C1,C2)
28Arbre de décision/ Hiérarchie indicée
Pas dordre de découpage
Ordre de construction
D
C8
C9
C5
C6
C7
29Les résultats
- Les K partitions de notre ensemble dindividus
- Hiérarchie indicée
- Chaque nœud représente une classe
- Chaque classe peut être décrite par une règle
30Arbre de classification
La règle associée au régime 3 est Proportion
of Soups and Bouillon lt 17.28 AND Proportion of
fish and Shellfish lt 6.87
31étape 4 3 régimes par Zoom Stars
Règle du régime 3 est Soups and Bouillon lt
17.28 AND Fish and Shellfish lt 6.87
323 régimes par Zoom Stars
33Relation entre les centres et les régimes
34Classification de stations de météorologies
chinoises
Base de données des températures mensuelles de 60
stations météorologiques chinoises depuis un
siècle. Lobjectif est de classer les profils
annuels de ces stations. Chaque station est
décrite par 12 variables continues On propose de
comparer deux formes dinitialisation de
lalgorithme de Kohonen.
35Comparaison entre deux types dinitialisation
ACP Hasard
11x2 22 5X5 25
16x3 48 7X7 49
22x5 110 10X10 100
36Initialisation par lACP
37Hasard
38Initialisation par lACP
39Hasard
40Initialisation par lACP
41Hasard
42Grille obtenue par une initialisation par lACP
43Grille obtenue par une initialisation au hasard
44DIV sur les 110 neurones
45Critère de linertie intra-classe
46Problème de reconnaissance des formes
- Cet exemple est issus dun problème de
reconnaissance des formes du livre de L.Breiman,
J.H. Friedman, R.A. Oslhen and C. J. Stone
"Classification and Regression Trees" Belmont
Eds, 1984.
Ces données sont des données simulées
47Les trois formes de base
Voici les trois formes de base h1, h2 et h3.
h2(i)
h1(i)
h3(i)
48Ensemble dapprentissage
3 classes de formes wave_1, wave_2, wave_3 Pour
chaque forme les 21 données xi i1 à 21 sont
calculées à partir du modèle et dun bruit
Formes de la classe wave_1 xiu. h1(i)
(1-u).h3(i) ei for i1,...,21.
Formes de la classe wave_2 xiu. h1(i)
(1-u).h2(i) ei for i1,...,21.
Formes de la classe wave_3 xiu. h3(i)
(1-u).h2(i) ei for i1,...,21.
- u suit une loi uniforme dans 0,1
- e1,...,e21 sont des variables aléatoires
indépendantes qui suivent une loi gaussienne de
moyenne nulle et de variance unitaire.
49Un modèle de forme avec h1 et h3
Le vecteur est obtenu par un échantillonnage sur
21 points
6
5
u0.1
WAVE
4
3
2
x8
1
x3
0
0
5
10
15
20
25
Variables
v1
v2
v3
v4
v6
v5
v7
v8
v10
v9
....
50Analyse en composante principale
wave_1
wave_2
wave_3
51Initialisation de la carte topologique
52Carte à la convergence
53carte
54Carte de Kohonen avec les prototypes
(coefficients du réseau)
55Les critères
56Carte des moyennes et intervalle de variation
57Carte des écarts par rapport à la valeur moyenne
58Les anomales possibles
- Éloignement de deux classes proches
- Rapprochement de deux classes éloignées
- Leffet papillon
- La représentation des données sur la carte est un
codage dun point de Rp par un couple de deux
entiers. Les défauts correspondent à la non
conservation de la notion de voisinage.
59Les anomales possibles
60Notion de voisinage
- Cette notion de voisinage se traduit par une
relation dintermédiarité existant entre un
triplet déléments. - Dans Rp on considère que x1 se situe entre x2
et x3 si
On dira quil y a violation pour le triplet (x1 ,
x2 , x3) si lélément qui se site entre les
deux autres est différent suivant que lon se
trouve dans Rp ou sur la carte.
61Mesure de la qualité de la carte
- Approche géométrique
- Zrehen S et Blayo F (1992)A geometric
organization measure for Self-Organization
Kohonen Maps , Proceeding of Neuro-Nîmes
Conference pp 603-610 - Approche discrète
- Villnamm T Der R, Herrmann M et Martinez T (1997)
Topology perservation in self-Organizing feature
maps, IEEE Transaction on Neural Networks, pp
256-266 - Approche par ensembles ordonnés
- Goodhill G J, Finch S et Sejnowski T J (1995)
Quantifying neighborhood perservation in
topographic mapping, Technical Repport INC-9505.
Institute for Neural Computation, La Jolla,
Californie
62Approche géométrique
Pour deux neurones Ni et Nj proches dans la carte
(distance égale à 1 par exemple). On construit
dans Rp lhypersphère HS(wi,wj) dont lun des
diamètres est le segment de droite rejoignant les
deux représentations wi et wj de ces deux
neurones dans Rp.
Puis on recherche tous les neurones dont la
représentation est incluse dans cette hypersphère
et dont la distance sur la carte est supérieure à
la distance de ces deux neurones.
Tous les neurones de cet ensemble violent la
relation dintermédiarité. Lévaluation de la
qualité est liée à ce nombre dintrus.
Cette recherche est difficile si la dimension p
est assez grande.
63Approche géométrique
Indice est égal au nombre de vecteurs poids
intrus qui apparaissent dans le disque ayant pour
diamètre une paire de vecteurs poids voisins
donnés. Cet indice est pondéré par le nombre de
neurones de la carte multiplié par le nombre de
voisins sur la carte.
64Approche discrète
Graphe de Delaunay
Régions de Voronoï
Villmann propose de discrétiser lespace des
données pour faciliter la comparaison avec la
carte en utilisant ce que lon appelle les
régions de Voronoï Le graphe de Delaunay on
trace une arête entre deux sommets du graphe si
dans la partition en régions de Voronoï, les
régions associées aux deux sommets sont
adjacentes.
65Une approche par ensembles ordonnés
Si la valeur des dissimilarités entre individus
est conservée alors la topologie de lensemble
des données existant dans lespace de départ est
conservée dans lensemble darrivée.
Evalution du désaccord entre les deux ordres