Title: Pr
1Robustesse... ...en Analyse Spatiale
Didier JOSSELIN ESPACE, UMR 6012, CNRS, Avignon,
France didier.josselin_at_univ-avignon.fr Tél. 04
90 16 26 93
2PLAN
- Quest-ce que la robustesse ?
- La qualité dans les données
- La robustesse des méthodes statistiques
- appréhension empirique avec la Médienne
- La robustesse de la décision
- Conclusions à travers quelques applications
3Le processus danalyse (spatiale)
OUTILS STATISTIQUES
Données (Spatiales)
EXPERT
Approche Analyse
Décision, Règles Connaissance...
4Quest-ce que la robustesse (au sens large) ?
La robustesse augmente...
Avoir ou montrer une force, une vigueur Etre
résistant aux maladies et aux perturbations
5Besoin de robustesse ? ...à différents niveaux
du processus danalyse 1- Données Qualité
2- Méthodes statistiques Robustesse,
résistance 3- Aide à la décision ?
Plus dintervention De lexpert
ZAPPER
6 1 Robustesse des données qualité(Goodchild,
Gopal, 1989, Goodchild, Jeansoulin, 1998)
Bruit ?
Données Complétude Précision Fiabilité Adéquat
ion etc.
Structure de données Base de données Métadonnées
7 Qualité des données notre proposition
Fournir à lexpert des indicateurs et des
cartes duals pour évaluer la qualité de
linformation
8Question la moyenne est-elle robuste ?
9Question la médiane est-elle robuste ?
10Manipulation de la robustesse,de la moyenne, de
la médiane
11 2 Robustesse des outils statistiques
Outils statistiques Résistance aux
outliers Adéquation Justesse Hypothèses...
Fouille de données Capacité de
généralisation Détection des dépendances
statistiques Conservation de toutes les données
Elimination du bruit
12 Robustesse dun outil statistique / estimateur
définition (Andrews et al., 1972, Huber, 1981,
Hoaglin, Mosteller, Tukey, 1983, Hampel et al.,
1986, Lecoutre et Tassi, 1987)
Un estimateur est dit robuste sil est peu
affecté par un écart aux hypothèses sous-jacentes
du modèle
Un estimateur est dit resistant sil est peu
affecté par un petit nombre de grosses erreurs
ou par un grand nombre de petites erreurs
13Exemple dindice robuste construction empirique
de la médienne
14Un problème concret posé Conserver les zones
homogènes et les zones hétérogènes ou de
gradients (écotones) .
15 Différentes distributions de groupes de pixels
ZAPPER
Données vignes en Languedoc-Roussillon, France,
INRA, Jean-Marc Robbez-Masson
16Quels filtres sont couramment utilisés ?
Données brutes
Filtre médian
Filtre moyen
Filtre moyen pondéré
Données pullulation des campagnols, DRAF-SRPV
Franche-Comté
17Associer la moyenne et la médianepour définir
la médienne ...
un échantillon de données ordonnées
sa moyenne
sa médiane
18 Comportement de la moyenne et de la médiane
face aux outliers et inliers
Outlier
Inlier
19Définition de la médienne
20But et principe de la médienne(Josselin, 2000,
Josselin et Ladiray, 2001)
- Une mesure de centralité qui s'adapte aux
distributions - locales
- Une combinaison linéaire des normes L1 et L2
- (Dodge, 1987, 2000)
- ... combinaison liée aux résistances de la
moyenne - et la médiane
- Les résistances étant estimées par un bootstrap
21 Calcul de la médienne (simple)
Lidée une métrique qui sadapte à la
distribution locale en combinant les normes L1 et
L2
Mesure la résistance d'un estimateur
Quand la médiane est plus résistante que la
moyenne la médienne tend vers la médiane vers la
moyenne dans le cas inverse
22 Formulation de la médienne de Laplace( Laplace
1818, Stigler, 1973, 1986, Josselin et Ladiray,
2001, 2002)
avec
23Comment estimer les variances de la moyenne et de
la médiane ? la voie du bootstrap
(Efron, Tibshirani, 1993, Shao, Tu, 1995)
24Le Bootstrap pour estimer la résistance
X(x1,x2,,xN)
Soit un échantillon de données
Un ensemble de B échantillons bootstrappés
(tirage avec remise)
X1
X2
Xb
Un ensemble de B estimateurs pour chaque
fonction F appliquée (moyenne, médiane)
F (X1)
F (X2)
F (Xb)
Estimation de la variance de chaque estimateur F
25Bootstrap application à la médienne
Estimateur Variance de lestimateur avec
Moyenne
Médiane
Et covariance moyenne-médiane (pour médienne de
Laplace)
26 Application de la médienne au filtrage spatial
le cas de la pullulation du campagnol
(Josselin, Ladiray, 2002)
Degré de Contiguïté 1
27 Application de la médienne au filtrage spatial
le cas de la pullulation du campagnol
Degré de Contiguïté 2
28 Application de la médienne au filtrage spatial
comparaison aux M estimateurs
ZAPPE 2
ZAPPE 1
29Propriétés de la médienne
30 La médienne confrontée à 4 distributions
typiques
Mean
Median
Meadians
31 Comportement spécifique de la médienne de Laplace
32Résultats simulations et filtrage spatial
33 Evaluation de l'efficacité de la médienne
(Hoaglin, Tukey, Mosteller, 1983 )
- u on choisit un ensemble de lois statistiques
- u pour chaque distribution, on calcule son
Efficacité Relative le rapport entre la
variance du meilleur estimateur testé et la
variance de l'estimateur considéré (permutations
de type Monte-Carlo) - u le meilleur estimateur est celui qui possède
- Le plus petit Ecart-type d'efficacité relative
pour les diverses distributions - Le plus grand Minimum d'efficacité relative
(Robustesse)
34Efficacité relative et robustesse de la moyenne,
la médiane et des médiennes selon différentes
lois et l'effectif de la distribution.
35Réflexions autour de la médienne et des normes
Lp
36 Modèle de régression
(Dodge and Jurecková, 2000)
Les normes Lp et leurs méthodes de minimisation
découlent du modèle général de régression
Où Y est une variable à expliquer par X1, X2,
...,Xj, ..., Xk variables explicatives Pour n
données observées (i1,2,...,n), le modèle est
Où les coefficients
sont inconnus , Z un terme d'erreur avec
z1, z2, ..., zn les résidus.
37 Métrique de Minkowsky ou Norme Lp
Avec
Norme L1 p1 objectif minimiser les
écarts absolus
Norme L2 p2 méthodes des moindres carrés
Norme L p minimiser le résidu absolu
maximum (minmax)
38 Transcription graphique
A
Norme L1 distance de Manhattan H1H3 Norme
L2 distance euclidienne H2 (H12 H32
)1/2 Norme L H1 max ( H1 H3 )
H 1
H 2
C
B
H 3
La médiane minimise la norme L1 La moyenne
minimise la norme L2 La moyenne des deux valeurs
extrêmes minimise la norme L
ZAPPER
39 Y aurait-il un couple robuste (p, valeur
centrale) ? Et pourrait-il correspondre à la
médienne ?
Norme Lp
Valeur centrale
Exposant p
Médiane
Moyenne
Médiennes ?
Distribution gaussienne
40 Cas où médiane lt médienne lt moyenne et 1 lt
pmédiennelt 2
Valeur centrale minimisant la norme Lp
Moyenne (p2)
Médienne ( p 1,8 )
Médiane (p1)
Valeur de P de la norme Lp
41 Cas où médienne gt moyenne et pmédienne gt 2
Valeur centrale minimisant la norme Lp
Médienne ( p 2,1 )
Valeur de P de la norme Lp
La médienne est très proche du couple (p,valeur
centrale) le plus robuste
42 Cas où médienne lt médiane et pmédienne ??
Valeur centrale minimisant la norme Lp
Médienne (p ?)
Valeur de P de la norme Lp
La médienne est différente du couple (p,valeur
centrale) le plus robuste p6
43 Robustesse des outils statistiques notre
proposition exploratoire
Ne jamais accepter par défaut la méthode la
plus utilisée, mais rechercher la plus
pertinente. Trouver des méthodes
robustes capables de généraliser et qui
sadaptent aux configurations locales des
distributions statistiques et spatiales, tout
conservant tous les individus...
44 3 Robustesse dans laide à la décision
Subjectivité La pensée et la vision de
lexpert ?
Efficience Pertinence Durabilité Incontestabilit
é Consensualité Généricité Transposabili
té .. ? Emergenciabilité Adaptabilité
dans le temps Souplesse
Objectivité La part de la connaissance qui
est indépendante de lexpert ?
45 Aide à la décision et modélisation quelques
mots-clés et quelques pistes...
Inductive Abductive
Individus
Résidus
Micro- modèles
Hypothético déductif
Exploratoire
Confirmatoire
Déductive
La tendance
46 Aide à la décision, notre proposition
Une modélisation locale instruite insérée dans
une analyse globale Avec lE(S)DA
47 CONCLUSION et exemples dapplication
48Quand on a des objectifs à atteindre et des
données à traiter ...
49... à laide doutils et de méthodes statistiques
plus ou moins appropriés...
50La voie de lEDA...
51On porte un regard critique sur les outils et les
méthodes ...
52(No Transcript)
53 que nous choisissons les plus robustes possible
pour analyser les données ...
54(No Transcript)
55... sur lesquelles nous formulons des hypothèses
sans a priori.
56(No Transcript)
57On souhaite maîtriser le temps de lanalyse
spatiale et faire partie intégrante du processus
...
58 Le Distogramme
Double Distributions et Discontinuités statistiqu
es et spatiales Dynamique Distorsion de Données
59 tout en restant en permanence proche des
données ... en considérant que les individus ne
sont pas interchangeables ...
60(No Transcript)
61... que nous éclairons par des représentations
multiples ...
62 Lavstat(Josselin, Chatonnay, Guerre, Dancuo,
1999)
63... grâce aux liens dynamiques et à
linteractivité.
64(No Transcript)
65 On recherche la tendance comme la marge et
lon regarde de plus près les écarts au modèle,
les résidus
66Modèle gravitaire des échanges commerciaux
(Josselin, Nicot, 2001)
67 et les relations entre les objets géographiques.
68ARPEGE (Josselin, 2000)
69Lanalyse doit être globale etlocale ...à
travers les échelles.
70 Analyse exploratoire multiscalaire (Foltête,
Josselin, 2001)
71 la validation des résultats mathématique
etempirique.
72(No Transcript)
73On cherche aussi à appréhender le qualitatif et
le quantitatif en même temps ...
74(No Transcript)
75 la sémantique, la géométrie et la topologie ...
76(No Transcript)
77 en considérant bien que la densité de la
mesure nest pas constante.
78 Si vous faites de lexplo, attention à
sion
combina