Construction de super-classes - PowerPoint PPT Presentation

About This Presentation
Title:

Construction de super-classes

Description:

Dans la premi re tape, SOM r duit de mani re importante les donn es et rend, ainsi, les m thodes de classification hi rarchiques accessibles. ... – PowerPoint PPT presentation

Number of Views:49
Avg rating:3.0/5.0
Slides: 66
Provided by: inr1
Category:

less

Transcript and Presenter's Notes

Title: Construction de super-classes


1
Construction de super-classes à partir de la
carte de KohonenEtude de la robustesse de la
carte.
  • Marie Chavent, Antonio Ciampi, Olivier Elemento,
    Aicha El Golli, Yves Lechevallier
  • Karim Terbeche
  • Yves.Lechevallier_at_inria.fr

2
Introduction
  • Notre approche intègre Kohonen Self Organizing
    Map avec dautres méthodes de classification.
  • Dans la première étape, SOM réduit de manière
    importante les données et rend, ainsi, les
    méthodes de classification hiérarchiques
    accessibles.
  • Dans la seconde étape, nous proposons une
    modélisation des classes obtenues afin de pouvoir
    utiliser une méthode de classification optimisant
    les paramètres de cette modélisation.
  • Cette approche est illustrée par un exemple de
    données de nutrition dEPIC.

3
Notre approche
Au départ on réalise une réduction des données
par les cartes topologiques de Kohonen. Après
les mesures individuelles sont remplacées par des
mesures agrégées qui sont calculées sur les
neurones représentant les micro-classes. Ces
micro-classes sont maintenant traitées comme des
nouvelles  boites  qui sont représentées par
une distribution gaussienne multi-dimensionnelle
ou par un intervalle de  variabilité . Après
les micro-classes sont regroupés pour produire un
nombre réduit de super-classes.
4
Méthodologie
  • Cette approche comporte 4 étapes 
  •  étape 1  Réduction des données par les cartes
    de Kohonen
  • Le tableau de données original est réduit en un
    certain nombre de micro-régimes où chaque
    individus est assigné à un seul de ces
    micro-régimes.
  • étape 2  Relation entre centres et micro-régimes
  • Calcul de la moyenne et de la matrice de variance
    et covariance de chaque micro-régime.  
  • étape 3 Classification sur les micro-régimes
  • La méthode de classification divisive est
    utilisée pour obtenir une première définition des
    régimes.  
  • étape 4  Description des régimes
  • Chaque régime va être décrit par un  Zoom Star 
    en utilisant les 8 variables les plus
    discriminantes

5
Les données
  • Une étude multi-centres longitudinale de cohorte
    dont le but est une meilleure compréhension de
    leffet de la nutrition, par lanalyse des
    variables métaboliques et dautres facteurs relié
    au style de vie, sur le risque de cancer. Les
    données portant sur le régime alimentaire sont
    maintenant disponible sur plus de 500.000 sujets.
  • Nous remercions le Dr. F. Clavel pour nous avoir
    permis danalyser les données de son étude, et le
    Dr. E. Riboli pour nous avoir guidé à comprendre
    la complexité et les enjeux du projet EPIC .
  • Base de données des températures mensuelles de 60
    stations météorologiques chinoises depuis un
    siècle. Lobjectif est de classer les profils
    annuels de ces stations.

6
étape 1 Réduction des données par les cartes de
Kohonen
  • Les cartes de Kohonen sont utilisés pour
    visualiser des structures complexes issues de
    grands tableaux de données par projection sur une
    grille (comme à la TV) sachant que les propriétés
    de la structure de données sous-jacente doivent
    être vues sur lécran.

7
Étapes de lalgorithme
Initialisation
Initialisation par lanalyse en composantes
principales
Étape dallocation
Sélection aléatoire de lindividu s et
détermination du neurone  gagnant  c, sachant
que c arg mini d(s,mi) )ooù d est la
distance entre s et le prototype mi
Étape de représentation
Mise à jour des pondérations de tous les neurones
i appartenant au voisinage de c par
où mi(t) est la description du i, at est
utilisé pour assurer la convergence, h(c,i,t)
est la fonction de voisinage entre c et i.
Revenir à létape dallocation si cette règle
nest pas vérifiée.
Règle darrêt
8
Algorithme de gradient stochastique
On choisit un f0 dans l'espace F, ensemble des
solutions. à l'étape t on effectue un tirage
aléatoire suivant la loi P. On obtient une
réalisation zt on procède à la mise à jour par
la formule suivante
la suite de termes at positifs doit vérifier
9
Fonction de voisinage
Courbe de cette fonction de voisinage
a
d2(i,c)
10
Initialisation
Notre choix est dutiliser les résultats dune
analyse en composante principale appliquée à la
matrice des données à la fois dans le choix de
larchitecture de la carte et dans
linitialisation. Il est en effet utile de
choisir les dimensions de la grille, a et b (avec
R ab) de telle sorte que 
où ?1 et ?2 sont les deux premières valeurs
propres de lanalyse en composante principale.
Les poids des connections initiaux et les
positions des prototypes sont déterminés à partir
des deux premiers vecteurs propres
11
Tableau de données
  • Nous avons pris un sous-ensemble de la population
    de lEPIC constitué de 4852 femmes françaises
    distribuées dans 7 centres.
  • Les variables sont 16 variables continues
  • Potatoes and other tubers Fish and Shellfish
  • Vegetables Eggs and eggs products
  • Legumes Fat
  • Fruits Sugar and confectionery
  • Dairy products Cakes
  • Cereals and cereals products Alcoholic beverages
  • Meat and meat products Condiments and Sauces
  • Soups and bouillon Miscellaneous

12
Cercle de correlation entre les variables
13
Initialisation par lACP
A chaque sommet de la grille on associe un
neurone et son vecteur de pondération qui est sa
position dans cet espace de dimension
14
Kohonen Map
Chaque boite représente un neurone et lensemble
des individus associés par létape dallocation.
A chaque boite vous avez leffectif et son profil
calcul sur les 16 variables
15
2 micro-régimes visualisés par Zoom Stars
16
étape 2 Relation entre centres et boites
17
Résumés de la matrice originale
  • Pour chaque  boite  nous résumons les vecteurs
    de mesure des individus de cette boite par de
    nouvelles mesures agrégées associées à cette
    boite
  • Deux modèles de représentation
  • Par une distribution gaussienne
  • Par un intervalle de variation

18
Dissimilarité entre micro-classes
Un avantage ultérieur de la réduction de Kohonen
est que les vecteurs des moyennes sur les
micro-classes sont asymptotiquement distribués
selon la distribution normale. Cest une
propriété importante, car elle permet de définir
une mesure de dissimilarité entre micro-classes
particulièrement bien appropriée. Lobjectif est
la découverte de classes ou régimes alimentaires
constitués de micro-classes ou micro-régimes.
19
Distance entre micro-classes
La distance est la statistique du rapport de
vraisemblance entre lhypothèse que m et m? sont
distribués selon deux lois différentes et
lhypothèse quils sont distribués selon la même
distribution. On a alors 
20
Algorithme de la classification ascendante
hiérarchique CAH
(a) initialisation On se donne au départ la
partition constituée de N classes
On se donne un indice dagrégation
qui vérifie
(b) Étape agrégative
Construire une nouvelle partition
contenant K classes à partir de la partition
contenant K1 classes en réunissant les
deux classes de les plus proches au
sens de la mesure dagrégation D.
(c) Recommencer létape (b) jusquà obtenir une
seule classe, cest-à-dire la partition grossière.
21
La formule de récurrence de Lance et Williams
Il est nécessaire de recalculer lindice
dagrégation entre la nouvelle classe ainsi
formée et les autres classes de la partition.
Lance et Williams en 1967 ont proposé, lors du
regroupement des deux classes , la formule de
récurrence suivante
lien minimum
lien maximum
laugmentation de linertie ou indice de WARD
22
étape 3 Classification sur les micro-classes
Cette méthode (Chavent 1997, 1998), présentée ici
dans le cas particulier des variables de type
intervalle, divise à chaque étape une classe en
fonction d'une question binaire et du critère
d'inertie A chaque étape, la méthode définit la
question binaire qui induit la bipartition
dinertie intra-classe minimum.
23
DIV méthode de classification divisive
  • Les K partitions de notre ensemble dindividus
  • Hiérarchie indicée
  • Chaque nœud représente une classe
  • Chaque classe peut être décrite par une règle

24
Questions binaires
variable continue
Variable qualitative
X gt 3.5 ?
  • Dans le cas dune variable continue on évalue
    toutes coupures possibles cest-à-dire au maximum
    n-1
  • Pour une variable qualitative ordonnée Y, on
    évalue ainsi au maximum m-1 bipartitions
  • Dans le cas d'une variable qualitative non
    ordonnée, on se heurte vite à un problème de
    complexité, le nombre de dichotomies du domaine
    d'observation étant alors égal à 2m-1-1.

25
Algorithme récursif
  • Initialisation
  • lensemble E forme la partition grossière
  • Étape k
  • Diviser lune des k classes de la partition en
    deux classes
  • En sélectionnant une des questions binaires qui
    optimisent un critère dévaluation défini sur la
    partition,
  • En utilisant cette question binaire pour générer
    deux sous-classes,
  • Remplace la classe précédente par deux nouvelles
    feuilles associées à ces sous-classes (arbre
    binaire)
  • Revenir à létape k tant que k est plus petit que
    le nombre de classes donné a priori.

26
Critère dévaluation
Soit P(P1,,PK) une partition en K classes
Critère dévaluation W(P) doit être additif
Exemple Inertie intra-classe
La réduction du critère dévaluation revient à
maximiser le gain D(Q) associé à la question
binaire Q de découper la classe C et deux classes
C1 et C2
B étant lensemble des questions binaires
admissibles
27
Algorithme divisif
  • Étape 1 Tous les objets dans la même classe C
  • Étape 2 Diviser successivement chaque classe C
    en deux classes (C1,C2) en fonction du critère de
    linertie intra-classes
  • étape 2.1 pour chaque variable X , trouver la
    coupure s qui maximise
  • D(X,s/C)w(C) - w(C1)-w(C2)
  • étape 2.2 choisir la variable X et la coupure
    s
  • D(X,s/C)max D(X,s/C)
  • étape 3 diviser la classe C en (C1,C2)

28
Arbre de décision/ Hiérarchie indicée
Pas dordre de découpage
Ordre de construction
D
C8
C9
C5
C6
C7
29
Les résultats
  • Les K partitions de notre ensemble dindividus
  • Hiérarchie indicée
  • Chaque nœud représente une classe
  • Chaque classe peut être décrite par une règle

30
Arbre de classification
La règle associée au régime 3 est Proportion
of Soups and Bouillon lt 17.28 AND Proportion of
fish and Shellfish lt 6.87
31
étape 4 3 régimes par Zoom Stars
Règle du régime 3 est Soups and Bouillon lt
17.28 AND Fish and Shellfish lt 6.87
32
3 régimes par Zoom Stars
33
Relation entre les centres et les régimes
34
Classification de stations de météorologies
chinoises
Base de données des températures mensuelles de 60
stations météorologiques chinoises depuis un
siècle. Lobjectif est de classer les profils
annuels de ces stations. Chaque station est
décrite par 12 variables continues On propose de
comparer deux formes dinitialisation de
lalgorithme de Kohonen.
35
Comparaison entre deux types dinitialisation
ACP Hasard
11x2 22 5X5 25
16x3 48 7X7 49
22x5 110 10X10 100
36
Initialisation par lACP
37
Hasard
38
Initialisation par lACP
39
Hasard
40
Initialisation par lACP
41
Hasard
42
Grille obtenue par une initialisation par lACP
43
Grille obtenue par une initialisation au hasard
44
DIV sur les 110 neurones
45
Critère de linertie intra-classe
46
Problème de reconnaissance des formes
  • Cet exemple est issus dun problème de
    reconnaissance des formes du livre de L.Breiman,
    J.H. Friedman, R.A. Oslhen and C. J. Stone
    "Classification and Regression Trees" Belmont
    Eds, 1984.

Ces données sont des données simulées
47
Les trois formes de base
Voici les trois formes de base h1, h2 et h3.
h2(i)
h1(i)
h3(i)
48
Ensemble dapprentissage
3 classes de formes wave_1, wave_2, wave_3 Pour
chaque forme les 21 données xi i1 à 21 sont
calculées à partir du modèle et dun bruit
Formes de la classe wave_1 xiu. h1(i)
(1-u).h3(i) ei for i1,...,21.
Formes de la classe wave_2 xiu. h1(i)
(1-u).h2(i) ei for i1,...,21.
Formes de la classe wave_3 xiu. h3(i)
(1-u).h2(i) ei for i1,...,21.
  • u suit une loi uniforme dans 0,1
  • e1,...,e21 sont des variables aléatoires
    indépendantes qui suivent une loi gaussienne de
    moyenne nulle et de variance unitaire.

49
Un modèle de forme avec h1 et h3
Le vecteur est obtenu par un échantillonnage sur
21 points
6
5
u0.1
WAVE
4
3
2
x8
1
x3
0
0
5
10
15
20
25
Variables
v1
v2
v3
v4
v6
v5
v7
v8
v10
v9
....
50
Analyse en composante principale
wave_1
wave_2
wave_3
51
Initialisation de la carte topologique
52
Carte à la convergence
53
carte
54
Carte de Kohonen avec les prototypes
(coefficients du réseau)
55
Les critères
56
Carte des moyennes et intervalle de variation
57
Carte des écarts par rapport à la valeur moyenne
58
Les anomales possibles
  • Éloignement de deux classes proches
  • Rapprochement de deux classes éloignées
  • Leffet  papillon 
  • La représentation des données sur la carte est un
    codage dun point de Rp par un couple de deux
    entiers. Les défauts correspondent à la non
    conservation de la notion de voisinage.

59
Les anomales possibles
60
Notion de voisinage
  • Cette notion de voisinage se traduit par une
    relation dintermédiarité existant entre un
    triplet déléments.
  • Dans Rp on considère que x1 se situe  entre  x2
    et x3 si

On dira quil y a violation pour le triplet (x1 ,
x2 , x3) si lélément qui se site  entre  les
deux autres est différent suivant que lon se
trouve dans Rp ou sur la carte.
61
Mesure de la qualité de la carte
  • Approche géométrique
  • Zrehen S et Blayo F (1992)A geometric
    organization measure for Self-Organization
    Kohonen Maps , Proceeding of Neuro-Nîmes
    Conference pp 603-610
  • Approche discrète
  • Villnamm T Der R, Herrmann M et Martinez T (1997)
    Topology perservation in self-Organizing feature
    maps, IEEE Transaction on Neural Networks, pp
    256-266
  • Approche par ensembles ordonnés
  • Goodhill G J, Finch S et Sejnowski T J (1995)
    Quantifying neighborhood perservation in
    topographic mapping, Technical Repport INC-9505.
    Institute for Neural Computation, La Jolla,
    Californie

62
Approche géométrique
Pour deux neurones Ni et Nj proches dans la carte
(distance égale à 1 par exemple). On construit
dans Rp lhypersphère HS(wi,wj) dont lun des
diamètres est le segment de droite rejoignant les
deux représentations wi et wj de ces deux
neurones dans Rp.
Puis on recherche tous les neurones dont la
représentation est incluse dans cette hypersphère
et dont la distance sur la carte est supérieure à
la distance de ces deux neurones.
Tous les neurones de cet ensemble violent la
relation dintermédiarité. Lévaluation de la
qualité est liée à ce nombre dintrus.
Cette recherche est difficile si la dimension p
est assez grande.
63
Approche géométrique
Indice est égal au nombre de vecteurs poids
intrus qui apparaissent dans le disque ayant pour
diamètre une paire de vecteurs poids voisins
donnés. Cet indice est pondéré par le nombre de
neurones de la carte multiplié par le nombre de
voisins sur la carte.
64
Approche discrète
Graphe de Delaunay
Régions de Voronoï
Villmann propose de discrétiser lespace des
données pour faciliter la comparaison avec la
carte en utilisant ce que lon appelle les
régions de Voronoï Le graphe de Delaunay on
trace une arête entre deux sommets du graphe si
dans la partition en régions de Voronoï, les
régions associées aux deux sommets sont
adjacentes.
65
Une approche par ensembles ordonnés
Si la valeur des dissimilarités entre individus
est conservée alors la topologie de lensemble
des données existant dans lespace de départ est
conservée dans lensemble darrivée.
Evalution du désaccord entre les deux ordres
Write a Comment
User Comments (0)
About PowerShow.com