La r - PowerPoint PPT Presentation

About This Presentation
Title:

La r

Description:

Corr lation simple Analyse de la variance. un facteur Qualitatif R gression logistique Test du khi-deux d'ind pendance Title: La r gression multiple Author: – PowerPoint PPT presentation

Number of Views:66
Avg rating:3.0/5.0
Slides: 34
Provided by: GROU73
Category:
Tags: analyse | variance

less

Transcript and Presenter's Notes

Title: La r


1
La régression simpleMichel Tenenhaus
2
La régression simple
Étude de la liaison linéaire entre deux variables
numériques - une variable explicative X -
une variable à expliquer Y
3
Étude du lien entre deux variables X et Y
Variable X explicative
Variable Y à expliquer
4
Cas Prix dun appartement
5
Cas Prix dun appartement
6
Identification des outliersau niveau du Prix au
mètre carré
9000
Ile saint-louis
8000
Panthéon (10)
7000
Jardins de l'observatoire
6000
5000
4000
3000
2000
28
N
Prix du mètre carré
7
La droite des moindres carrés
8
Les données
  • Y
  • Variable à expliquer
  • numérique
  • (ou dépendante)
  • X
  • Variable explicative
  • numérique ou binaire
  • (ou indépendante)

X
Y
1
x
y
1
1
M
M
M
i
x
y
i
i
M
M
M
n
x
y
n
n
Le tableau des données
9
La droite des moindres carrés
On cherche minimisant
valeur observée
yi
erreur ei
valeur prédite

xi
10
Résultats SPSS
11
Résultats SPSS
Modèle Prix calculé -29.466 5.353
Surface
Pour le modèle avec constante on a aussi
12
Coefficient de détermination R2,Coefficient de
corrélation R
13
Résultats SPSS
14
Le R2 mesure la force de la liaison linéaire
entre X et Y
1) 0 ? R2 ? 1
3) R2 0
2) R2 1
Y

Y
















X
X
15
Le R2 mesure la force de la liaison linéaire
entre X et Y
Modèle non linéaire Y aX2 bX
16
La corrélation R mesure la force et le sens de
la liaison linéaire entre X et Y
Y
Y














X
X
17
Calcul direct de R
Résultat SPSS

18
La corrélation R est-elle significative au risque
? 0.05 ?
  • Notations
  • - ? Corrélation au niveau
  • de la population
  • - R Corrélation au niveau de
    léchantillon
  • Test
  • H0 ? 0
  • H1 ? ? 0
  • Règle de décision
  • On rejette H0 au risque ? 0.05
  • de se tromper si
  • (Bonne approximation pour n gt 20)

19
La corrélation R est-elle significative au risque
? ?
  • Notations
  • - ? Corrélation au niveau
  • de la population
  • - R Corrélation au niveau de
    léchantillon
  • Test
  • H0 ? 0
  • H1 ? ? 0
  • Règle de décision
  • On rejette H0 au risque ? de se tromper si
  • Niveau de signification
  • Plus petit ? conduisant au rejet de H0.

20
Exemple de corrélationnon significative
On a 30,9 chances sur 100 de se tromper en
affirmant quil existe une liaison linéaire
entre le prix au m2 et la surface. On considère
donc que la corrélation (.199) entre le prix au
m2 et la surface nest pas significative.
En rouge la droite des moindres carrés, en bleu
la droite y prix au m2 moyen
21
Le modèle statistique de la régression simple
  • Chaque valeur observée yi est considérée comme
    une
  • réalisation dune variable aléatoire Yi définie
    par
  • Yi axi b ?i
  • où ?i est un terme aléatoire suivant une loi
    normale
  • N(0, ?).
  • On suppose que les les aléas ?i sont indépendants
    les uns des autres.

22
Le modèle de la régression simple
Modèle Y aX b ? , avec ? ? N(0, ?)
Y
y ax b
?x 1.96?
Loi de Y

?x axb
95 des valeurs de Y
?x - 1.96?

x
X
Lécart-type ? représente à peu près le quart de
lépaisseur du nuage
23
Estimation de a, b et ?
  • Estimation de a et b
  • Estimation de ?

24
Prévision de Y
  • Modèle Y aX b ? , avec ? ? N(0, ?)
  • ?x E(Y X x) ax b
  • Problème 1 Calculer une estimation et un
    intervalle de confiance au niveau de confiance 95
    de la moyenne ?x de Y lorsque X est fixé à x.
  • Soit y une future valeur de Y pour X fixé à x.
  • Problème 2 Calculer une prévision et un
    intervalle contenant 95 des futures valeurs de
    Y lorsque X est fixé à x.

25
Résultat pour ?x
  • Estimation de ?x E(Y Xx)
  • Intervalle de confiance de ?x au niveau 95

Formule approchée
26
Résultats SPSS
Surface moyenne 82.32
Variance de la surface 3266.3
27
Résultat graphique pourles intervalles de
confiance
Prix vs Surface (28 obs.)  Intervalle de
confiance à 95
28
Intervalle de confiance de la moyenne?x ax b
pour une liaison non significative
La droite y appartient à la zone de
confiance des Y moyens. Donc la liaison entre Y
et X nest pas significative.
29
Résultat pour y
  • Prévision de y pour x fixé
  • Intervalle de prévision de y à 95 pour x fixé

Formule approchée
30
Résultat graphique pourles intervalles de
prévision
Intervalle de prévision individuelle à 95
31
Observation atypique
  • Une observation est atypique (outlier) si elle
    nappartient pas à son propre intervalle de
    prévision
  • En utilisant la formule approchée
  • Conclusion Une observation i est un outlier si
    son résidu standardisé est supérieur à 2
    en valeur absolue.

32
Résultats SPSS
33
Élimination des observations atypiques
  • Pour rendre la prévision plus opérationnelle, on
    peut restreindre le champ dapplication du modèle
    en éliminant des observations atypiques, mais en
    le justifiant par des considérations
    extra-statistiques.
  • Compléter le tableau suivant jusquà élimination
    de toutes les données atypiques

Nombre
Corrélation
Écart-type
Observations
Intervalle de prévision à
R
2
dobservations
du résidu
atypiques
95 du prix dun 100 m
28
26
M
Write a Comment
User Comments (0)
About PowerShow.com