Mod - PowerPoint PPT Presentation

About This Presentation
Title:

Mod

Description:

Title: colin arit dans le mod le lin aire. r gression born e Last modified by: Thierry FOUCART Document presentation format: Affichage l' cran – PowerPoint PPT presentation

Number of Views:182
Avg rating:3.0/5.0
Slides: 73
Provided by: free2334
Category:
Tags: mod | optimisation

less

Transcript and Presenter's Notes

Title: Mod


1
Modèle linéaire.Analyse numérique dune matrice
de corrélation.Transitivité et Colinéarité.
  • Thierry Foucart
  • UMR 6086, Mathématiques, SP2MI, Bd Marie et
    Pierre Curie, BP 30179 86962  FUTUROSCOPE
    CHASSENEUIL CEDEX.

2
1. introduction au modèle linéaire.
3
1.1 un exemple
  • étude des liaisons entre le revenu, lâge, la
    CSP, le niveau de diplôme, lorientation
    politique, le sexe au sein dune population
    délecteurs.
  • Grand nombre de tableaux croisés impuissance
    des tests classiques du c2 et de Fisher
  • modélisation expression mathématique des
    liaisons.

4
1.2 modèle linéaire.
Y b0 b1 X1 b2 X2 b3 X3 b4 X4 ?
  • Y revenu
  • X1 âge
  • X2 CSP
  • X3 diplôme
  • X4 orientation politique
  • variable dajustement

hypothèses rigides (linéarité, indépendance des
observations, normalité et homoscédasticité de la
variable dajustement e).
5
1.3 interprétation du modèle
  • toutes choses égales par ailleurs.
  • recherche dun effet propre de Xj sur Y bj ? 0.
  • lâge X1 augmente dun an le revenu moyen Y
    augmente toujours de b1, quelle que soient la
    CSP, le diplôme, lorientation politique.
  • démarche implicite on suppose a priori
    lexistence dun effet propre et on le contrôle.

6
1.4 analyse en quatre points
  • Analyse numérique de la matrice des corrélations
    transitivité, corrélation partielle.
  • Colinéarité instabilité des estimations
  • Evaluation de la régression bornée.
  • Régression orthogonale. Sélection des composantes
    principales.

7
2. Analyse numérique dune matrice de corrélation
8
2.1 Modèle linéaire.
  • Y b0 b1 X1 bj Xj ... bp Xp ?

E(Xj) 0, V(Xj) 1
  • bj coefficients de régression théoriques
  • e variable résiduelle E(e) 0, V(e) s2

X matrice des observations des Xj (en
colonnes) Y matrice des observations de Y (en
colonne) R matrice symétrique p x p des
corrélations entre les variables Xj
9
2.2 Estimateur MCO
  • B estimateur sans biais de variance minimale
    (efficace) défini par
  • (B1, B2, ..., Bp)t.
  • Bj estimateur du coefficient bj
  • Les propriétés des estimateurs dépendent de R-1

10
2.3. Factorisation de Cholesky.
  • Le calcul de R-1 consiste à factoriser R puis
    àinverser T.
  • Factorisation de Cholesky
  • T matrice triangulaire supérieure
  • La matrice R étant symétrique définie positive
    est inversible la matrice T existe et est
    inversible.

R T T t
L
11
2.4 Calcul de la matrice T
  • i 1,..., p ti,1 r1,i / r1,1 ½ (1)
  • i-1
  • "i 2, ..., p ti,i ri,i - ? ti,k2
    1/2 (2)
  • k1
  • i-1
  • ri,j - ? ti,k tj,k
  • k 1
  • "i2,...,p-1 "ji1,...p tj,i
    ___________________ (3)
  • ti,i

12
2.5 Encadrement dun terme
  • -1 ? ap,p1lt rp,p1 lt bp,p-1? 1

ap,p1 tp1,p1 1 ? tp,k21/2 ? tp1,k
tp,k bp,p1 tp1,p1 1 ??tp,k21/2 ?
tp1,k tp,k
p-2
p-2
k 1
k 1
p-2
p-2
k 1
k 1
généralisation par permutation
ai,j lt ri,j lt bi,j
13
2.6 terme diagonal
  • cp,p ? tp,k2 rp,p gt cp,p
  • rj,j gt cj,j
  • cj,j Rj2

p-1
k 1
Rj2 coefficient de détermination obtenu dans la
régression de Xj par les autres variables
explicatives
14
2.6 Exemple numérique
  • X1 X2 X3 X4
  • X1 1
  • X2 0.5 1
  • X3 0.5 0.5 1
  • X4 -0.5 0.4 0.3 1

r1,2 ? -0.3697771 , 0.5126343
r4,4 ? .98 , ? R42 0.98
15
3. Relations entre les corrélations
16
3.1 Transitivité de la corrélation.
  • X Y Z
  • X 1
  • R Y 0.8 1
  • Z r3,1 r3,2 1
  • Forte corrélation entre X et Y r1,2 0.8
  • Une forte corrélation entre Y et Z (r3,2 0.8)
    implique-t-elle une forte corrélation entre X et
    Z (r3,1 élevé) ?

17
3.2 Evaluation de la transitivité
  • X Y Z
  • X 1
  • R Y 0.8 1
  • Z r3,1 r3,2 1
  • r3,2 -0.2 r3,1 ? -0.75, 0.43
  • r3,2 0.6 r3,1 ? 0, 0.96
  • r3,2 0.746 r3,1 ? 0.196, 1 (gtgt0 pour
    n100)
  • r3,2 0.919 r3,1 ? 0.499, 1

18
3.3 Représentation graphique
ensemble des couples (r3,2, r3,1) tels que la
matrice soit définie positive (r1,2 0.8)
19
3.4 Généralisation
  • cas dune matrice p x p

X1 X2 X3 X4 X1 1 X2
0.5 1 X3 0.5 0.5 1 X4 -0.5 0.4 0.3 1
  • relation entre r1,2 et r3,4 quelle est la
    conséquence de la liaison entre la CSP et le
    diplôme (r1,2) sur la liaison entre lâge et le
    revenu (r3,4) ?

20
3.5 Représentation graphique
21
3.6 Représentation graphique
22
3.7 Positionnement du coefficient de corrélation
Evaluation de la position de ri,j dans son
intervalle a, b à laide dun indice variant
de 1 à 1
- 1 ? (ri,j (ab)/2) / (b a)/2 ? 1
23
3.8 corrélation partielle
On obtient le coefficient de corrélation
partielle
rpi,j (ri,j (ab)/2) / (b a)/2
  • ri,j (a b)/2 si et seulement si rpi,j 0
  • rpi,j fonction linéaire croissante de ri,j
  • ri,j tend vers a ou b si et seulement rpi,j
    tend vers 1 en v.a.
  • relation entre rk,l et rpi,j rk,l tend vers a
    (ou b) implique que rpi,j tend vers 1 en v.a.
    (sous conditions)

24
4. Colinéarités statistiques.
25
4.1 Application du modèle
  • Domaine dapplication D ensemble des valeurs
    vraisemblables des variables explicatives.
  • forte liaison entre la CSP et le diplôme un
    employé a rarement un diplôme BAC5. Le modèle ne
    permet pas destimer le revenu dun employé
    titulaire dun BAC5.
  • Plus les variables explicatives sont nombreuses
  • plus le risque de colinéarité est élevé.
  • moins la colinéarité est visible.
  • plus le domaine dapplication est restreint.

26
4.2 Colinéarités statistiques
  • entre deux variables leur coefficient de
    corrélation linéaire est proche de 1 en valeur
    absolue .
  • entre plusieurs variables il existe une
    combinaison linéaire de ces variables de variance
    faible (doù lACP).

27
4.3 Conséquences numériques
  • Les termes de la matrice R-1 sont élevés, en
    particulier les termes diagonaux.

Termes diagonaux de VB variances des
estimateurs Bj
28
4.4 Effets de la colinéarité statistique
  • Variances des estimateurs MCO des bj élevées
    doù valeurs des coefficients estimés parfois
    élevées.
  • Coefficients de corrélation entre les Bj proches
    de ? 1 compensation entre les estimations
  • Conséquence coefficients estimés parfois
    opposés aux coefficients théoriques
  • Coefficient de détermination instable.

29
4.5 modèle simulé.
  • Y 0.5 X1 0.5 X2 0.5 X3 0.5 X4 ?
  • n 100 R??????? ?2 1
  • X1 X2 X3 X4
  • X1 1
  • X2 0.5 1
  • X3 0.5 0.5 1
  • X4 -0.5 0.4 0.3 1

30
4.6 Interprétation du modèle
  • Le modèle théorique correspond aux propriétés
    suivantes
  • lâge et la CSP ont un effet propre positif sur
    le revenu (b1 b2 0.5 )
  • le diplôme et lorientation politique un effet
    propre négatif sur le revenu (b3 b4 - 0.5 ).

31
4.7 Estimations suivant les MCO(premier
échantillon, n 100)
  • Estimation écart-type t vraie valeur

b1 1.6339 0.8739 1.870 0.5
b2 -0.1482 0.5659 -0.262 0.5
b3 -1.0375 0.4153 -2.498 -0.5
b4 0.4439 0.7848 0.566 -0.5
b0 -0.1650 0.1110 -1.486 0
R2 0.49
32
4.8 Estimations suivant les MCO(deuxième
échantillon, n 100)
  • Estimation écart-type t vraie valeur

b1 0.4638 0.7832 0.592 0.5
b2 0.3674 0.5072 0.724 0.5
b3 -0.5204 0.3722 -1.398 -0.5
b4 -0.5594 0.7033 -0.795 -0.5
b0 -0.0985 0.0995 -0.990 0
R2 0.50
33
4.9 Coefficient de déterminationTroisième exemple
  • X1 X2 X3 Y
  • X1 1
  • X2 0.6 1
  • X3 -0.279 0.6 1
  • Y 0.0446 0 0 1

R2 0.99536 (r1,2 0.600)
R2 0.45260 (r1,2 0.599)
34
4.10 Variation du coefficient de détermination
R42 en fonction de r1,2
35
5. Détection de la colinéarité.
X1 X2 X3 X4 X1 1 X2 0.5 1 X3
0.5 0.5 1 X4 -0.5 0.4 0.3 1
36
5.1 Facteurs dinflation
  • Facteurs dinflation  

fj 1 / (1 Rj2)
(termes diagonaux de la matrice R-1)
  • Indice de multicolinéarité (Tomassonne)

I (1/p) ?? fj
(moyenne des facteurs dinflation)
En labsence totale de colinéarité, les facteurs
dinflation et lindice I sont égaux à 1
37
5.2 Valeurs propres
  • On note l1, l2, , lp les valeurs propres de R
    classées suivant les valeurs décroissantes.

Faibles valeurs propres colinéarité statistique
  • Lindice de conditionnement ? (Belsley et al.)

k 1/ ?p (ou ?1/ ?p)
  • Lindice de multicolinéarité

I (1/p) ?? 1/ ?j
38
5.3 Application au modèle simulé
  • Facteurs dinflation

b1 f1 62 b2 f2 26 b3 f3 14 b4 f4
50
  • Valeurs propres

l12.019 l21.47 l30.5 l4 0.007
I 38
  • Indice de multicolinéarité

? 148.83
  • Indice de conditionnement

39
6. Application de la régression bornée.
40
6.1 Estimateur biaisé dun paramètre m
E(X m )2 V(X) E(X) m2 E(X m )2
V(X) gt E(X m )2
41
6.2 Estimateur de la régression bornée
critère des MC sous la contrainte ??B ??2 ? M
(Pour k 0, on retrouve lestimateur des MCO)
42
6.3 Application.
  • On fait varier k de 0 à 1.
  • on estime les coefficients de régression par
    lestimateur de la régression bornée.
  • On construit la représentation graphique des bj
    en fonction de k appelée ridge trace.
  • On choisit k de façon que leurs valeurs soient
    stabilisées.

43
6.4 Premier exemple
44
6.5 estimations (k 0.1)
45
6.6 Deuxième exemple
46
6.7 estimations (k 0.02).
47
6.8 Distances entre vecteur observé et vecteur
réeld2?b??, B? ? (bj bj)2(erreur
quadratique)
  • 50 échantillons de taille 100 50 distances1)
    par la régression des MCO k 02) par la
    régression bornée k 0.013) par la régression
    bornée k 0.05

48
6.9 Résultats numériques
Carrés des distances entre vecteurs estimés et
vecteur vrai (50 vecteurs estimés)
49
6.10 Les 20 plus mauvais résultats par les MCO
50
6.11 fonction de répartition des carrés des
distances (MCO)
51
6.12 Variation de la moyenne des B - b2
52
6.13 Optimisation
  • Meilleure Moyenne des Variance
  • valeur de k carrés des distances
  • k 0.078 0.039 0.001

Forte stabilité de lerreur quadratique pour
0.05 lt k lt 0.1
53
6.14 Critique de la régression bornée
  • amélioration considérable des estimations
  • résultats discutables dans le cas de
    coefficients de régression théoriques élevés en
    valeur absolue. Doù la nécessité de les évaluer
    a priori.
  • mise en oeuvre nécessitant une démarche
    critique danalyse des coefficients de
    régression.

54
6.15 Développements
  • Régression bornée partielle on calcule les
    dérivées des coefficients de régression par
    rapport à chaque terme diagonal de R, et on on
    ajoute une constante à ceux dont la dérivée est
    la plus grande en v.a.
  • Détection de valeurs influentes les valeurs
    observées influentes sont celles par rapport
    auxquelles les dérivées des coefficients de
    régression sont les plus grandes en v.a.

55
7. régression orthogonale
56
7.1 Méthode
  • ACP du tableau de données X
  • U tableau des vecteurs principaux, vecteurs
    propres unitaires de R.
  • C tableau des composantes principales Cl
  • (n lignes et q colonnes)

C X U
On considère les composantes principales comme
variables explicatives.
57
7.2 Modélisation et estimateurs
Y b0 b1 C1 bl Cl ... bp Cp ?
bl cov (Y, Cl) / ll
B 1/n D1/l Ct Y
  • estimateur B des coefficients de régression des
    variables initiales 

B U B
VB U VB Ut
58
7.3 Choix des composantes principales
  • Algorithme descendant
  • On sélectionne la composante principale Cl en
    fonction de son coefficient de régression bl
    avec la variable expliquée Y.
  • ?bl ? gt b0 on sélectionne la composante
    principale.
  • ?bl ? lt b0 on écarte la composante principale.
  • Le test sur le coefficient de corrélation
    partielle rpl est équivalent on fixe alors une
    valeur limite rp0.

59
7.4 Premier type derreur
Y b0 b1 C1 bl Cl ... bp Cp
? (théo.)
Y b0 b1 C1 bl Cl ... bp Cp
e (obs.)
erreur possible introduire Cl avec bl nul
la moyenne des carrés des erreurs est égale à
bl2 ll (erreur de type I)
60
7.5 Second type derreur
Y b0 b1 C1 bl Cl ... bp Cp
? (théo.)
Y b0 b1 C1 bl Cl ... bp Cp
e (obs.)
  • erreur possible éliminer Cl avec bl non nul
  • (erreur de type II)
  • La moyenne des carrés des erreurs est égale à
    bl2 ll

61
7.6 évaluation de lerreur de type II
  • bl inconnu Démarche baysienne
  • Probabilité a priori sur lensemble contenant le
    coefficient de régression bl
  • E(bl2 ll ) mesure de lerreur de type II.
  • En pratique on étudie le coefficient de
    corrélation partielle (loi normale tronquée).

62
7.7 Algorithme
  • On choisit la région critique du test en fixant
    un coefficient de corrélation partielle limite.
  • On calcule la somme des deux erreurs
  • On recommence le calcul en faisant varier le
    coefficient de corrélation partielle limite de
    -1 à 1.
  • on en déduit celui qui minimise la moyenne des
    deux erreurs.

On applique cet algorithme aux deux exemples
précédents.
63
7.8 Application (1e simulation).
Pour chaque valeur du coefficient de corrélation
partiel limite rp entre 0 et 1, on calcule la
somme des deux erreurs
64
7.9 Résultats numériques
Valeur limite du coefficient de corrélation
partielle 0.0991 Valeur du coefficient de
corrélation correspondant 0.0709 Valeur
limite du F 0.9422 vraisemblance
P(Fgtf) 0.3389
65
7.10 Exemple 1 conclusion
  • toutes les composantes principales sont
    conservées.
  • les coefficients de régresion sont égaux aux
    coefficients de régression initiaux (MC).
  • la régression bornée et la régression
    orthogonale donnent des résultats très différents.
  • Doù la nécessité dune réflexion a priori sur
    les coefficients de régression théoriques.

66
7.11 Application (2e simulation).
  • Valeur limite 0.149, observée 0.002. On élimine
    C4.
  • On élimine également C1, et les prédicteurs
    retenus sont C2 et C3 (variance résiduelle
    estimée minimale).

67
Exemple 2 conclusion
Régression orthogonale des moindres carrés
estimation écart-type estimation écart-type
0.464 0.367 -0.520 -0.559
0.783 0.507 0.372 0.703
0.047 0.094 0.104 0.065
b1 0.449 b2 0.323 b3 -0.561 b4 -0.556
La régression orthogonale diminue
considé-rablement les écarts-types des
estimateurs.
68
7.13 Commentaires sur lalgorithme
  • Le choix des composantes principales à éliminer
    dépend de r(Y,Cl) 2 / ll .
  • Eliminer une composante principale de faible
    variance nest pas toujours une bonne décision.
  • Conserver une composante principale de variance
    relativement élevée nest pas toujours une bonne
    décision.
  • Risque de 1e espèce correspondant à la valeur
    limite largement supérieur à 5.

69
CONCLUSION
  • Le modèle linéaire compense limpuissance des
    tests classiques en recourant à des hypothèses
    rigides.
  • Ces hypothèses mathématiques sont vérifiées dans
    les simulations effectuées, mais jamais dans la
    réalité.
  • Une réflexion non statistique sur la nature des
    données est indispensable pour appliquer le
    modèle linéaire et en interpréter correctement
    les résultats.

70
BIBLIOGRAPHIE
  1. Colinéarité et régression linéaire, Math. Sci.
    hum. Mathematics and Social Sciences (43e année,
    n 173, 2005(4), p. 5-25).
  2. évaluation de la régression bornée. Revue des
    Nouvelles Technologies de lInformation, éd.
    Cépaduès sous presse.
  3. Limites de linformatisation des sciences de
    lhomme et de la société. Contribution à
    louvrage collectif Les sciences humaines et
    sociales à lheure des technologies de
    linformation et de la communication, dir. B.
    Reber C. Brossaud , publication prévue juin 2007,
    Hermès, Paris.

71
Compléments
  • http//foucart.thierry.free.fr

72
Matrices de corrélation
  • X1 X2 X3 X4 Y
  • X1 1.000
  • X2 0.500 1.000
  • X3 0.500 0.500 1.000
  • X4 -0.500 0.400 0.300 1.000
  • Y1 0.540 0.216 -0.107 -0.491 1.000
  • Y2 0.486 0.084 -0.199 -0.584 1.000
Write a Comment
User Comments (0)
About PowerShow.com