Title: Analyse discriminante sur donn
1Analyse discriminante sur données fonctionnelles
Gilbert Saporta Chaire de Statistique Appliquée
CEDRIC Conservatoire National des Arts et
Métiers 292 rue Saint Martin F 75141 Paris Cedex
03 saporta_at_cnam.fr http//cedric.cnam.fr/saporta
2Plan
- 1. IntroductionÂ
- 2. Régression MCO sur données fonctionnelles
- 3. Régression PLS fonctionnelle
- 4. Méthodes linéaires de discrimination
- 5. Régression typologique
- 6. Prédiction anticipée
- 7. Conclusion et perspectives
- Travaux réalisés en collaboration avec
C.Preda(Univ. Lille2) et D.Costanzo
(Univ.Calabria)
31. Introduction
- Données fonctionnelles courbes ou trajectoires
dun processus stochastique Xt - Réponse Y
- Y numérique régression
- Y catégorielle classification supervisée,
discrimination - Intervalle de temps commun 0T, variables
centrées
4- Régression sur données fonctionnelles
- Exemple 1 Y récolte
- Xt température
- p ?
R.A.Fisher (1924)
5- Données de très grande dimension infinité non
dénombrable (en principe..) de prédicteurs - Combinaison linéaire
- Integral regression
- Au lieu dune somme finie
6R.A.Fisher The Influence of Rainfall on the
Yield of Wheat at Rothamsted Philosophical
Transactions of the Royal Society, B, 213, 89-142
(1924)
7Discrimination sur données fonctionnelles
- Exemple 2 courbes de pétrissage pour biscuits
(Danone Vitapole)
8- Après lissage par B-splines cubiques (Lévéder
al, 2004)
Comment prédire la qualité des biscuits?
9- Discrimination sur données fonctionnelles
- Cas particulier de la régression sur données
fonctionnelles pour deux classes - Anticipation
- déterminer tltT tel que lanalyse sur 0t
donne des prédictions semblables à lanalyse sur
0T
102. Régression sur données fonctionnelles
- Y Xt (E(Y)E(Xt) 0 )
- 2.1 Les mco
- Equations normales ou de Wiener-Hopf
-
- C(t,s) cov(Xt, Xs)E(XtXs)
11 - 2.2 décomposition de Karhunen-Loeve
- facteurs
- Composantes principales
- Covariance avec une composante principale
12 - Theorème de Picard ? unique si et seulement si
-
- Géneralement faux ... Surtout quand n est fini
car p gtn. Ajustement parfait en minimisant
13 - Même quand ? est unique, Léquation de
Wiener-Hopf nest pas une équation intégrale
ordinaire mais un accouplement entre fonction et
distribution dont la solution est plus souvent
une distribution quune fonction Paul Kree,
1972 - Nécessité de contraintes. (cf Green Silverman
1994, Ramsay Silverman 1997).
14 - 2.3 Régression sur composantes principales
- Approximation de rang q
15- Résolution numérique
- Equations intégrales non explicites dans le cas
général C(t,s) connu point par point - Fonctions en escalier nombre fini de variables
et dindividus opérateurs matriciels mais de
grande taille - Approximations par discrétisation du temps
16 - Quelles composantes?
- Les q premières?
- Les q plus corrélées?
- Les composantes principales sont calculées sans
tenir compte de la réponse Y
173. Régression PLS fonctionnelle
- Utiliser les composantes PLS au lieu des
composantes principales - Première composante PLS
-
-
-
- Puis itération sur les résidus
18 - Approximation de Y par Xt dordre q
- Convergence
- Mais q doit être fini pour avoir une formule!
- q déterminé par validation croisée
- (Preda Saporta, 2005)
19- Première composante PLS facilement interprétable
coefficients du même signe que r(yxt) - Pas déquation intégrale
- Meilleur ajustement par PLS que par ACP
- (De Jong 1993)
204. Discrimination linéaire
- 4.1 ADL fonctionnelle
- ADL combinaison linéaire
- maximisant le rapport
- variance inter/variance intra
- Pour 2 groupes la FLD de Fisher sobtient en
régressant Y codé sur Xt - eg
- (Preda Saporta, 2005a)
21- La régression PLS avec q composantes donne une
approximation de ß(t) et du score -
- Pour plus de 2 groupes régression PLS2 entre k-1
indicatrices de Y et Xt
22Régression PLS2
- Y multiple (Y1, Y2, ,Yp)
- Citère de Tucker
- Composantes PLS
23- Première composante PLS premier vecteur propre
du produit des opérateurs dEscoufier WxWY - Preda Saporta, 2002 2005a Barker Rayens ,
2003
24 - Généralisation du critère de Tucker au cas
fonctionnel - Prévision
254.2 Régression logistique fonctionnelle
Hypothèse ß(t) et les trajectoires sont dans le
même espace de dimension fini (Ramsay et al.,
1997)
26- Doù une régression logistique classique
- avec
- Leng and Müller (2006) , Escabias et al. (2004),
Aguilera et al. (2006) utilisent les composantes
principales de Xt comme base
274.3 Mesures de qualité
- Pour k2 courbe ROC et AUC
- Pour un seuil s , x est classé en 1 si dT(x)gts
- Sensibilité ou taux de vrais positifs
P(dT(x)gts/Y1)1-ß - 1- Spécificité ou 1-taux de vrais négatifs
P(dT(x)gts/Y0)?
28Courbe ROC
- En cas de discrimination parfaite
- courbe confondue avec les côtés du carré
- Si distribution conditionnelles identiques,
courbe confondue avec la diagonale
29- Courbe ROC invariante pour toute transformation
monotone croissante - Surface sous la courbe mesure de performance
permettant de comparer (partiellement) des
modèles -
- On tire une obs de G1 et une de G2
- AUC estimée par la proportion de paires
concordantes - nc statistique de Wilcoxon-Mann-Whitney
- UW n1n20.5n1(n11) AUCU/n1n2
305. Régression typologique
- Un mélange de régression et de classification
31-
- 5.1 Modèle
- G , variable à K catégories (sousb-populations)
32 - 5.2 MCO et régression typologique
- Variances résiduelle de la régression globale
varaince résiduelle intra cluster variance due
à la différence entre la régression locale et la
régression globale (MCO)
33 - 5.3 Estimation (Charles, 1977)
- k fixé
- Moindres carrés alternés
- Partition connue régressions linéaires dans
chaque cluster - Affecter chaque observation à la droite ou
surface de régression la plus proche -
- Equivalent au MV pour des régresseurs fixes
(Hennig, 2000) - 5.4 Choix de k
- AIC, BIC,validation croisée
345.5 Régression typologique fonctionnelle PLS
- Régression MCO fonctionnelle inadéquate pour des
estimations par groupe - Modèles locaux estimés par PLS fonctionnel
- Lalgorithme est-il consistent?
- Proof in Preda Saporta, 2005b
35 - Prédiction
- Affectation à un groupe (plus proche voisin ou
autre) - Aplication du modèle local
- Se généralise si Y est un vecteur aléatoire
365.6 Application à des données boursières
- Taux de croissance pendant 1 heure (de 10h à 11h)
de 84 actions à la Bourse de Paris
37- Prédire le comportement de i85 entre 10h55 et 11h
en utilisant les données relevées entre 10h et
10h55?
38 - Calcul exact 1366 variables (nombre
dintervalles où les courbes restent constantes) - Discrétisation en 60 intervalles.
- Comparaison between RCP et PLS
39 - Crash de i85 non détecté!
40- PLS typologique
- Quatre clusters (17321025)
- Nombre de comosantes PLS component par cluster
1 3 2 2 (cross-validation)
41 - i85 classée dans le cluster 1
424. Prédiction anticipée
- Chercher tltT tel que lanalyse sur 0tdonne
des prédictions semblables à lanalyse sur 0T - Solution
- En augmentant s depuis 0 , chercher la première
valeur telle que AUC(s) ne diffère pas
significativement de AUC(T)
43- Test dégalité via une procédure bootstrap
- Rééchantillonnage des données, stratifié pour
conserver les proportions des classes - A chaque réplication b on calcule AUCb(s) et
AUCb(T) - Test basé sur les différences (Student ou
Wilcoxon pour données appariées)
?bAUCb(s)- AUCb(T)
445.Applications
- 5.1 Données simulées
- Deux classes équiprobables
- W(t) brownien standard
45(No Transcript)
46 47- 5.2 Courbes de pétrissage
- Après un temps T 480 de pétrissage on fabrique
des biscuits de qualité Y - 115 observations dont 50 bonnes , 40
mauvaises et 25 ajustables - 241 points de mesure équidistants
- Lissage avec B-splines cubiques , 16 nœuds
48- Performances pour Ybon,mauvais
- 100 séparations apprentissage test (60, 30)
- Taux derreur moyen
- 0.142 avec composantes principales
- 0.112 avec composantes PLS
- AUC moyen 0.746
-
- Fonction ß(t)
49- Prédiction anticipée
- Avec B50
- t186
- Il est donc possible de réduire de plus de moitié
la durée détude.
506.Conclusions et perspectives
- La régression PLS permet deffectuer une
prédiction linéaire de manière simple et efficace - Nécessité de prétraitements pour données bruitées
- Prédiction anticipée via une procédure simple
51- En cours
- Recherche de prédiction on-line adapter t
pour chaque nouvelle courbe - Comparaison avec régression logistique PLS
fonctionnelle et autres approches
52Références
- Aguilera A.M., Escabias, M. ,Valderrama M.J.
(2006) Using principal components for estimating
logistic regression with high-dimensional
multicollinear data, Computational Statistics
Data Analysis, 50, 1905-1924 - Barker M., Rayens W. (2003) Partial least squares
for discrimination. J. of Chemometrics 17166173 - Charles, C., (1977) Régression typologique et
reconnaissance des formes. Ph.D., Université
Paris IX. - D. Costanzo, C. Preda , G. Saporta (2006)
Anticipated prediction in discriminant analysis
on functional data for binary response . In
COMPSTAT2006, p. 821-828, Physica-Verlag - Hennig, C., (2000) Identifiability of models for
clusterwise linear regression. J. Classification
17, 273296. - Lévéder C., Abraham C., Cornillon P. A.,
Matzner-Lober E., Molinari N. (2004)
Discrimination de courbes de pétrissage.
Chimiometrie 2004, 3743. - Preda C. , Saporta G. (2005a) PLS regression on a
stochastic process, Computational Statistics
and Data Analysis, 48, 149-158. - Preda C. , Saporta G. (2005b) Clusterwise PLS
regression on a stochastic process,
Computational Statistics and Data Analysis, 49,
99-108. - Preda C., Saporta G., Lévéder C., (2007) PLS
classification of functional data, Computational
Statistics, 22(2), 223-235 - Ramsay J.O. , Silverman (1997) Functional data
analysis, Springer