PPT – Ma PowerPoint presentation | free to view

About This Presentation

Title:

Ma

Description:

On peut voir l analyse de la variance comme la g n ralisation du test de diff rence des moyennes au cas o le caract re qualitatif a plus de deux modalit s. – PowerPoint PPT presentation

Number of Views:110

Avg rating:3.0/5.0

Slides: 50

Provided by: Beno94

Category:

more less

Transcript and Presenter's Notes

Title: Ma

1
(No Transcript)
2
Programmes de maîtrise et de doctorat en
démographieModèles de risque et de duréeCours
7Séance du 15 mars 2013
Benoît Laplante, professeur
3
Lanalyse de la causalité

Expérimentation, observation et causalité
La décomposition de la variance
Létude des relations entre plusieurs variables

4
Expérimentation, observation et causalité

On utilise un modèle linéaire lorsque lon juge
raisonnable de représenter leffet dune variable
indépendante sur une variable dépendante par une
relation linéaire.
Dans ce contexte, linéaire veut dire
proportionnel et
additif.

5
Expérimentation, observation et causalité

En sciences sociales, on distingue habituellement
deux objectifs différents de la modélisation
statistique
prédire et
expliquer.
Si lobjectif est de prédire, on cherche à
construire léquation qui prédit le mieux la
variable dépendante.
On cherche à maximiser lajustement ou la
proportion de variance expliquée et on ne se
préoccupe pas de la précision ou de la qualité de
lestimation des effets des variables
indépendantes.
Si lobjectif est dexpliquer, les choses sont
plus compliquées.

6
Expérimentation, observation et causalité

Si lobjectif est dexpliquer, les choses sont
plus compliquées.
On sintéresse aux effets des variables
indépendantes et donc
on se préoccupe de la précision et de la
qualité de lestimation de leurs effets.
Le problème tient au fait quen sciences
sociales, on utilise généralement des données qui
sont recueillies par lobservation plutôt que par
lexpérimentation.
Tout le problème de létude des processus sociaux
au moyen des méthodes statistiques tient au fait
que les données quon y utilise ne sont pas le
résultat de la manipulation expérimentale, mais
celui de lobservation.
Les relations empiriques que lon constate entre
les caractères dans la population sont le produit
des processus que lon étudie et non de la
manipulation expérimentale.

7
Expérimentation, observation et causalité

La méthode expérimentale moderne est due à Claude
Bernard.
En gros, elle consiste à considérer quon peut
établir une relation de cause à effet lorsquon
constate que la variation de la variable
dépendante est reliée à la variation dune
variable indépendante unique dont les valeurs
sont fixées par le chercheur et de manière telle
quune autre source potentielle de variation de
la variable dépendante ne peut agir sur elle.
On entend souvent que les sciences de
lobservation ne peuvent pas établir des
relations de cause à effet parce quelles
utilisent des données qui ne sont pas le fruit de
la manipulation expérimentale et on en renvoie
notamment à Claude Bernard pour sen convaincre.
Le fait est que la pensée de Claude Bernard est
autrement plus nuancée.

8
(No Transcript)
9
(No Transcript)
10
BERNARD, Claude. Introduction à l'étude de la
médecine expérimentale Paris J.-B. Baillière,
1865. (p. 28-32).
11
Expérimentation, observation et causalité

Dans Le Suicide, Durkheim suit une démarche qui
sapparente à celle que décrit Bernard, mais pour
des données qui résultent de lobservation.
Il sassure de lexistence du lien entre deux
variables en examinant leur relation à
lintérieur des modalités dune autre variable.
Au sens moderne, il examine la relation entre
deux variables en posant quelle peut être
conditionnelle à leffet dune troisième.
On trouve une démarche analogue chez Weber. Elle
sera systématisée par P. Lazarsfeld.
On peut appliquer cette démarche aux relations
estimées au moyen de modèles linéaires.

12
Expérimentation, observation et causalité

Cette démarche est également ce qui fonde
notamment
le path analysis du biologiste Sewall Wright, dès
1921,
The American occupational structure de P. Blau et
M. Duncan, en 1967,
Constructing social theories dArthur Stinchcombe
en 1968.
ainsi que
Causality de Judea Pearl en 2000.

Wright, S. 1921. Correlation and causation .
Journal of Agricultural Research, 20,
557-585. Wright, S. 1934. The method of path
coefficients . Annals of Mathematical
Statistics, 5(3), 161-215.
13
Expérimentation, observation et causalité

Le path analysis de S. Wright

14
Expérimentation, observation et causalité

Le XXe siècle a connu le développement des
méthodes qui permettent létude des processus
sociaux en se fondant sur la modélisation des
relations complexes dans lensemble des sciences
sociales.
Parmi les plus connus, on trouve les systèmes
déquations structurales ( Structural equation
modelling ) qui résultent de la combinaison du
path analysis de S. Wright et de lanalyse
factorielle de Thurstone, et questiment
notamment
le Lisrel de Karl Jöreskog et Dag Sörbom,
lEQS de Peter Bentler,
le Mplus de Muthén et Muthén,
Amos, distribué avec le SPSS dIBM
proc CALIS de SAS,
gllamm si on est patient
et depuis lété 2011, -sem- de Stata.

15
Expérimentation, observation et causalité

La fin du XXe siècle a vu le rejet de ces
approches par les économistes, notamment parce
quon leur reprochait
de ne pas estimer des paramètres stables et
parce quon sest aperçu quil est toujours
possible de proposer au moins deux modèles
différents qui sajustent aux données et
parce que les études fondées sur lobservation
ne peuvent pas permettre détablir des liens de
cause à effet .

Heckman, James J. 2000. Causal parameters and
policy analysis in economics a twentieth century
retrospective The Quarterly Journal of
Economics, 115, 45-97.
16
Expérimentation, observation et causalité

À lheure actuelle, en économétrie, la mode est
aux expériences et
aux expériences naturelles.
Ces approches permettent destimer leffet dune
variable à la fois, mais ne permettent pas
détudier des processus complexes.
Les autres sciences sociales nont pas suivi les
économètres et continuent dutiliser et de
développer des méthodes détudes des systèmes de
relations complexes.
Pearl (2009) propose une synthèse poussée des
développements philosophiques, méthodologiques et
techniques et des conditions qui permettent de
tirer des conclusions valides sur les relations
causales établies notamment à partir de données
recueillies par observation.

Pearl, Judea. 2009. Causality, 2nd edition.
Cambridge University Press, New York.
17
Expérimentation, observation et causalité

Pearl attribue aux statisticiens le refus de
toute interprétation causale des liens entre
variables observées.
Il montre de manière assez convaincante que le
refus de la causalité remonte à K. Pearson et
que la seule forme dinterprétation causale
légitime dans le monde de la statistique est
celle qui se démontre au moyen de lexpérience
aléatoire au sens de R. Fisher.
Les économistes se sont simplement ralliés à
cette vison.
On peut lire un dialogue imaginaire entre un
étudiant qui soutient sa thèse et un examinateur
externe statisticien assez amusant à lurl
suivant
http//bayes.cs.ucla.edu/BOOK-2K/jw.html

18
La décomposition de la variance

On représente la variance dune variable par un
surface, généralement un cercle.
On représente les relations entre deux variables
en superposant les cercles qui représentent la
variance de chacune.

La représentation graphique des covariances
19
La décomposition de la variance

La portion du cercle de la variable indépendante
qui se superpose au cercle de la variable
dépendante sans se superposer à celui de lautre
variable indépendante représente leffet net de
la variable indépendante sur la variable
dépendante.

Les effets bruts et les effets nets
20
La décomposition de la variance en analyse de la
variance

Lanalyse de la variance a été inventée par R.
Fisher (1921).
Elle a été développée à lorigine pour étudier
les causes de la variation dun caractère
quantitatif selon les modalités dun caractère
qualitatif en situation expérimentale.
On peut voir lanalyse de la variance comme la
généralisation du test de différence des moyennes
au cas où le caractère qualitatif a plus de deux
modalités.
Elle a été généralisée au cas de plusieurs
caractères qualitatifs, toujours en situation
expérimentale.

Fisher, R. 1921. Studies in Crop Variation. I.
An examination of the yield of dressed grain from
Broadbalk . Journal of Agricultural Science, 11,
107-135.
21
La décomposition de la variance en analyse de la
variance

La décomposition de la variance de lanalyse de
la variance repose sur le fait que par
définition, en situation expérimentale, les
variables indépendantes ne sont pas
corrélées.
On peut donc décomposer exactement la variance de
la variable dépendante en
variance interclasses (ou variance des moyennes
conditionnelles), c.-à-d. la variance de la
variable dépendante qui provient de la différence
entre les moyennes de cette variable calculée
dans les classes qui correspondent aux
différentes modalités de la variable indépendante
et en
variance intraclasses (ou moyenne des variances
conditionnelles), c.-à-d. la variance de la
variable dépendante au sein de chacune des
classes qui correspondent aux différentes
modalités de la variable indépendante et qui est
comprise comme la variance résiduelle ou
inexpliquée.

22
La décomposition de la variance en analyse de la
variance

Lorsquon utilise lanalyse de la variance avec
deux variables indépendantes
et que lon croit que les effets des deux
variables indépendantes ne sont pas
simplement additifs,
on peut construire ce qui se nomme une
interaction dans le jargon de lanalyse de la
variance et quon nomme plus proprement une
relation conditionnelle.
Techniquement, la relation conditionnelle est
représentée en ajoutant les produits des
variables dichotomiques qui représentent les
modalités des variables indépendantes
et réalisée en décomposant la variance comme
dans le cas plus simple,
mais entre toutes les modalités générées par la
construction des produits.

23
La décomposition de la variance en analyse de la
variance

Se pose alors un problème qui nexiste pas
lorsquon nutilise que les variables
indépendantes originales
Par définition, les variables indépendantes
originales ne sont pas corrélées.
Par contre, les produits des variables
indépendantes sont corrélés aux variables
indépendantes dont ils sont les produits.
À cause de cette corrélation, on ne peut plus
attribuer de manière certaine chaque portion de
la variance de la variable dépendante à une
modalité (ou une combinaison de modalités) des
variables originales.

24
La décomposition de la variance en analyse de la
variance

Lanalyse de la variance résout ce problème grâce
à une convention.
La variance commune
à une modalité qui résulte du produit des
modalités de deux variables originales et
à une modalité dune variable originale
est attribuée à la modalité de la variable
originale.

25
La décomposition de la variance en analyse de la
variance

Cette convention permet de résoudre le problème
de la relation conditionnelle dans lanalyse de
la variance
En permettant de construire un test qui compare
la quantité de la variance de la variable
dépendante qui est expliquée par les seules
variables indépendantes à
la quantité de la variance de la variable
dépendante qui est expliquée par les variables
indépendantes et leur interaction .
Si la quantité de variance qui est expliquée par
les variables indépendantes et leur interaction
est statistiquement supérieure à celle qui est
expliquée par les variables indépendantes seules
on a la preuve que la relation entre les
variables indépendantes et la variable dépendante
nest pas linéaire (additive), mais bien
conditionnelle (multiplicative).

26
La décomposition de la variance en régression (et
dans les modèles linéaires en général)

La régression a été développée principalement
pour étudier des données recueillies par
observation
dans lesquelles les variables indépendantes
sont presque toujours corrélées jusquà un
certain point.
Par définition, en régression, leffet dune
variable indépendante est toujours un effet net.
Ceci signifie que lorsquune portion de la
variance de la variable dépendante ne peut pas
être attribuée à une seule variable indépendante
parce que cette portion est partagée par au moins
deux variables indépendantes qui sont corrélées,
cette portion nest attribuée à aucune variable
indépendante.
On peut donc très bien obtenir une équation de
régression dont le coefficient de détermination
(R2) est élevé alors quaucune des variables
indépendantes na deffet net significatif.

27
La décomposition de la variance en régression (et
dans les modèles linéaires en général)

Lusage de données issues de lobservation pose
toujours le problème de lattribution de la
variance de la variable dépendante à une seule
variable indépendante.
Ce problème peut être nommé de différentes
manières selon les disciplines et selon la
manière dont on lenvisage.
En économétrie, on nomme ce problème
endogénéité lorsquon suppose quil est dû au
fait quune des variables indépendantes a un
effet sur une autre variable indépendante.
La solution la plus générale au problème consiste
à admettre que les processus sociaux sont
complexes, que les variables indépendantes sont
corrélées naturellement et à utiliser des
modèles ou des approches qui permettent de tenir
compte de ce fait.

28
Létude des relations entre plusieurs variables

La corrélation
La relation bivariée asymétrique
Les relations trivariées
Deux causes indépendantes
Effets dinhibition et de distorsion
Variable antécédente et variable intermédiaire
Cause commune ou corrélation fallacieuse
Relation conditionnelle

29
La simple corrélation

Le cas le plus simple de la relation bivariée
deux variables sont corrélées sans que lon
présume que lune explique lautre.
Relation symétrique.
Exemple deux indicateurs de la même variable
latente.

30
Une seule variable indépendante

On pose quune variable en explique une
autre.
Statistiquement, la relation est réciproque.
La direction de leffet est un choix.

31
Deux variables indépendantes ayant des effets
indépendants

On suppose que deux variables indépendantes
expliquent une variable dépendante
que leurs effets sont additifs et
que leur corrélation est sans importance.

32
Deux variables indépendantes ayant des effets
indépendants

Les effets bruts ne doivent pas être nuls.
Les effets nets ne doivent pas être nuls.
Les effets nets ne doivent pas être
significativement différents des effets bruts.

33
Deux variables indépendantes ayant des effets
indépendants

On peut construire ce genre déquation avec des
modèles de risque.
Voici différentes manières dexprimer la même
chose

34
Deux variables indépendantes ayant des effets
indépendants

Si les effets nets sont significativement
différents des effets bruts, il est probable que
lon se trouve dans un cas de figure différent
où la corrélation entre les deux variables
indépendantes nest pas sans conséquence.

35
Inhibition et distorsion

Il existe des cas spéciaux qui sont des
variations sur le cas des deux variables
indépendantes
Linhibition
Leffet brut dune variable indépendante est nul,
mais pas son effet net lorsquon contrôle leffet
dune autre variable indépendante.
La distorsion
Leffet brut dune variable indépendante est dun
signe, mais son effet net est du signe inverse
lorsquon contrôle leffet dune autre variable
indépendante.
Linhibition et la distorsion se produisent
généralement lorsque les deux variables
indépendantes
sont corrélées et
que leurs effets sur la variable dépendante sont
de signes opposés.

36
La variable intermédiaire

On suppose quune variable indépendante exogène
(parfois dite variable antécédente) exerce son
effet sur la variable dépendante (par définition
endogène) par lintermédiaire dune variable
indépendante endogène (la variable intermédiaire).

37
La variable intermédiaire

Les effets bruts ne doivent pas être nuls.
Leffet net de la variable antécédente doit être
nul.
Leffet net de la variable intermédiaire ne doit
pas être significativement différent de son
effet brut.

38
Interprétation de la variable intermédiaire

Le secteur en vert représente la covariance de la
variable antécédente (en jaune) et de la variable
dépendante (en bleu).
La variable antécédente (en jaune) a un effet
brut sur la variable dépendante (en bleu)
Elle na pas deffet net lorsquon contrôle
leffet de la variable intermédiaire (en rouge).
Il ne reste plus que leffet net (en mauve) de la
variable intermédiaire.

39
La cause commune

La corrélation entre deux variables est due à ce
que chacune dépend de la même cause.
Cest ce cas que lon nomme corrélation
fallacieuse .

40
Interprétation de la cause commune

Le secteur en vert représente la covariance des
deux variables ( la jaune et la bleue ) qui
dépendent de la même cause
Ce secteur disparaît lorsquon contrôle
leffet de la cause commune (en rouge).
Il ne reste plus que les effets nets (en orange
et en mauve) de la cause commune sur chacune des
deux autres variables.

41
La cause commune

Les effets bruts ne doivent pas être nuls.
Leffet net de la variable antécédente doit être
nul.
Leffet net de la variable intermédiaire ne doit
pas être significativement différent de son
effet brut.
Autrement dit, les mêmes conditions que pour la
variable intermédiaire.
Les deux cas ne peuvent être distingués que par
la théorie.

42
La relation conditionnelle

Leffet dune variable indépendante sur la
variable dépendante dépend dune autre variable
dépendante.

43
La relation conditionnelle

Le coefficient de cette variable varie selon les
valeurs dune autre variable indépendante.

44
La relation conditionnelle

Autrement dit, leffet de cette variable
indépendante est une fonction de lautre variable
indépendante.

45
La relation conditionnelle

Le test se fait généralement en comparant la
capacité dexplication de léquation qui
correspond aux effets linéaires des variables
indépendantes à la capacité dexplication de
léquation qui correspond à la relation
conditionnelle.

46
La relation conditionnelle

Dans une relation conditionnelle, leffet dune
variable indépendante sur la variable dépendante
est une fonction linéaire dune autre variable
indépendante.

47
La relation conditionnelle
48
La relation conditionnelle

On peut mieux comprendre ce que sont les
coefficients dune équation qui comprend une
relation conditionnelle en réfléchissant au
coefficient à partir de sa définition.

49
Relation conditionnelle

Lorsque la relation est conditionnelle, le vrai
coefficient (leffet) de chacune des deux VI
impliquées dans la relation conditionnelle est
une fonction de lautre VI.

Write a Comment

User Comments (0)