Title: Rgression multiple
1Régression multiple
- C1 Bio-statistiques
- F. KOHLER
2Régression multiple
- Conditions dapplication
- Utilisée chaque fois quune variable observée,
dite variable dépendante, doit être exprimée en
fonction de 2 ou plusieurs autres variables
observées, dites indépendantes ou mieux
explicatives. - Le cas le plus simple est celui où les variables
explicatives sont des variables non aléatoires,
leurs valeurs étant toutes choisies a priori de
façon arbitraire (dose dun médicament). - On suppose que la relation est linéaire et que
les différentes valeurs de la variable dépendante
sont extraites de distributions normales,
indépendantes de même variance - Modèle théorique
- Yx B0 B1 x1a B2X2a . Bpxpa da B0 Bx
dx - Les conditions peuvent être exprimées en
affirmant que les résidus aléatoires da relatif
aux différents individus a doivent tous posséder
une même distribution normale de moyenne nulle et
de variance constante et quils doivent être
indépendants les uns des autres. - Dautre part les p variables explicatives peuvent
être des variables aléatoires dont les valeurs
sont observées dans des conditions analogues à
celle de la variable dépendante. - On suppose alors généralement que les p1
variables possèdent une distribution normale à
p1 dimensions ou que la relation est linéaire et
que toutes les distributions conditionnelles de
la variable dépendante sont normales à une
dimension, indépendantes et de même variance - On suppose que les échantillons sont aléatoires
simples.
3Cas particulier de 2 variables explicatives
SPE sum of products deviate somme des
produits des écarts aux moyennes
SCE somme des carrés des écarts à la moyenne
4Cas particulier de 2 variables explicatives
Y b0 b1x1 b2x2
- Estimation et intervalle de confiance des
paramètres - Coefficient de régression partielle b1 et b2
- Les indices 1 et 2 correspondent aux variables
explicatives x1 et x2 et y à la variable
expliquée.
- Les résidus sont les différences entre la
réalité et la représentation - Variance résiduelle
DDL n-3 n-p-1
5Tests de conformité et de signification des
coefficients de régression partielle
- Test de conformité
- H0 b1 b1théo
Test de signification b1théo 0 DDL n-3
- Analyse de la variance
- Strictement équivalent au test t
- Permet de tester globalement la signification des
2 coefficients de régression partielle
6Tableau de lanalyse de la variance
Principe Décomposition de la somme des carrés
des écarts totale SCEy, en une somme des carrés
des écarts résiduelles SCEy.1p ou SCEy.x et une
somme des écarts factorielle SCEy(1..p) ou
SCEyx- SCEy.x qui possède p degrés de liberté
Coefficient de corrélation multiple
Somme des carrés des écarts résiduelle
Somme des carrés des écarts y
R2 Coefficient de détermination multiple
part de variance expliquée
DDL p n-p-1
7Coefficient de corrélation partielle
- Cas de 3 variables x, y, z
- Le coefficient de corrélation partielle entre y
et z est le coefficient de corrélation entre les
résidus y-y(x) et z-z(x) des régressions
linéaires à deux dimensions - On définit de la même façon les coefficients de
corrélation partielle x et y et x et z. - Ils mesurent lintensité de la relation qui
existe entre deux variables indépendamment de
linfluence de la troisième. - Ces notions sétendent à p variables
8Exemple
Exprimer le rendement en fonction des
précipitations de décembre et de la température
de juillet.
9Solution
-572,139
0,02655
0,9800
11,924
10Solution suite
Variance résiduelle
1,596
Équation
Y 11,92 0,0266 x1 0,980 x2
- Remarques
- Attention il ne faut pas de corrélation entre x1
et x2 - On peut déduire les limites de confiance de b1 et
b2
11Cas général p variables explicatives
- Deux problèmes
- Choix du modèle
- linéaire
- Autres (polynomiale, curvilinéaire)
- Estimation des paramètres
- Calculs complexes
- Choix des variables explicatives
- Choisir des variables explicatives fortement
corrélées à la variable dépendante et faiblement
corrélées entre elles. - Méthode de régression pas à pas
- Introduction successives de variables de telle
sorte quavant toute introduction dune variable
supplémentaire, la signification des variables
explicatives déjà présentes dans léquation soit
testée. Les variables qui napportent pas de
contribution significatives sont éliminées.
12Régression multiple et analyse discriminante
- Y variable qualitative à deux modalités codée 1
et 0 - Le vecteur y est composé uniquement de 1 et de 0
- Les variables explicatives peuvent prendre toutes
les valeurs - Dans ce cas particulier, la régression multiple
pas à pas est identique à lanalyse discriminante.
13SAS et Régression multiple
- GLM procedure general linear models
- Simple regression
- Multiple regression
- Anova
- Analysis of covariance
- Response surface models
- Weighted regression
- Polynomial regression
- Partial correlation
- Manova
- Repeated measures analysis of variance