Title: Inf
1Inférence tests univariés tests
bivariésEugénie Dostie-Goulet
- Plan de la présentation
- Comment faire une bonne recherche statistique
- Linférence
- Risques de biais
- Distribution normale
- inférence tests univariés (moyenne,
pourcentage) - Inférence tableaux croisés et Chi2 (khi-deux)
2On ne prouve rien
- Lacunes conceptuelles restons modestes!
- Impossible de spécifier le modèle parfaitement
- Hasard dans léchantillonnage
- Notre objectif est donc de tester des hypothèses,
de confronter nos résultats à nos attentes. Il y
a toujours quelque chose à en tirer, peu importe
le résultat.
3Réflexion théorique
- La théorie est au coeur de lanalyse statistique
on base nos hypothèses sur cette théorie, on
lutilise pour alimenter la discussion sur nos
résultats, on lenrichit grâce à ces résultats et
les conclusions quon en tire. - Il est donc essentiel de saisir les arguments
théoriques et les débats qui sy trouvent avant
de se lancer dans des analyses trop poussées. - ... ce qui ne veut pas dire quon ne
découvrira rien!
4Formulation du problème
Inondations au Pakistan
- Identification dun problème
- Motivation qui sintéresse à nos résultats?
- Les décideurs sintéressent à limportance
sociale ou politique des résultats dune
recherche. - Les chercheurs veulent une contribution à
lavancement des connaissances scientifiques - Énoncé sous forme de question
- problème général, quon précise, et pour lequel
on pose une question
Il y a plus de 125 000 Canadiens dorigine
pakistanaise...
On en connaît peu sur lorigine de laide en
situation de crise
Quels sont les facteurs influençant laide en
situation de crise?
5Construction du cadre opératoire
Hypothèse
- Doit être plausible
- La littérature nous aide à en juger
- Doit être vérifiable
- Basée sur des concepts/variables opératoires
(précis, mesurables) - Doit être précise
- Formulation sans ambiguïté
- Doit être générale
- Le pouvoir dexplication va au-delà du cas
particulier
Plus la diaspora est nombreuse dans un pays
daccueil, plus ce pays est porté à dépenser
lorsquun drame survient dans le pays dorigine
6Construction du cadre opératoire
Unité danalyse
- Des individus? des villes? des pays?
Variable dépendante, variable indépendante,
variables contrôle
Indicateur
- Ce quon utilise pour représenter chaque
variables
7Structuration
Schéma conceptuel
Variables indépendantes ou les causes
Variable dépendante ou la conséquence
Importance de la diaspora
Aide internationale en millions de
Médiatisation du drame
Nombre de morts
Résolution de lONU
8Cueillette des donnéesAnalyse des données /
interprétation des résultats
9Lanalyse confirmatoire
10Quelques notions dinférence statistique
- Inférence statistique ensemble des méthodes
permettant de tirer des conclusions sur un groupe
déterminé la population à partir des données
provenant dun échantillon choisi dans cette
population. - Lestimation ponctuelle est ajustée pour tenir
compte de lerreur échantillonnale cest la
notion de niveau de confiance .
11Biais possibles
- Biais échantillon
- Taux de réponse (par téléphone, environ 50 à 60)
- Qui répond?
- Ceux qui sont à la maison
- Ceux que ça intéresse
- Problématique du cellulaire
- Biais répondant
- Qualité de la réponse
- Rapports avec lenquêteur
- Désirabilité sociale
- Image conforme, normale
- Mémoire
- Hasard
- Biais questionnaire
- Formulation des questions
- Formulation des réponses
Erreur échantillonnale
12Quelques termes
Population Échantillon
Définition Lensemble des unités considérées par le chercheur Un sous-ensemble de la population choisi pour étude
Symbole Lettres grecques ou majuscules lettres minuscules
Caractéristique paramètre statistique
Taille N n
Moyenne m (mu) x (x barre)
Écart-type s (sigma) s
Pourcentage p (pi) p
-
13La distribution normale
Une distribution normale a deux paramètres sa
moyenne et son écart-type
Propriété fondamentale pour toute combinaison de
moyenne et décart-type, il y aura toujours une
proportion de cas constante entre la moyenne et
un point quelconque situé à une certaine distance
de la moyenne exprimée en termes dunité(s)
décart-type
14- Environ 68 des données se situent à l'intérieur
de l'intervalle ? -Slt x lt S. - Environ 95 des données se situent à l'intérieur
de l'intervalle ? - 2Slt x lt 2S. - Environ 99 des données se situent à l'intérieur
de l'intervalle ? - 3Slt x lt 3S.
15De la moyenne de léchantillon à la moyenne de la
population...
- À 95 de certitude µ x 1,96 sx où sx
s/vn - À 99 de certitude µ x 2,58 sx où sx
s/vn
_
-
-
_
-
-
u moyenne de la population x moyenne de
léchantillon sx écart-type de la distribution
déchantillonnage s écart-type de léchantillon
-
16Doù vient le 1,96?
- Avec une variable continue, la probabilité
dobtenir une certaine valeur précise est trop
petite pour attribuer une probabilité à chaque
valeur. On attribue donc une probabilité à un
intervalle de valeurs par voie destimation par
intervalle. Cette probabilité est représentée par
laire sous la courbe de distribution normale. - Cest la cote Z qui permet dattribuer une
probabilité à un intervalle de valeurs. - À une cote Z de 1,96 correspond une aire sous la
courbe de 0,975. Donc - Une proportion de 0,025 (ou 2,5) des cas sont
entre 1,96 et linfini positif, et 2,5 entre
-1,96 et linfini négatif. Donc 5 des cas sont à
lextérieur de lintervalle allant de -1,96 à
1,96 (soit environ 2s de la moyenne).
17De la moyenne de léchantillon à la moyenne de la
population...
- À 95 de certitude µ x 1,96 sx où sx
s/vn - À 99 de certitude µ x 2,58 sx où sx
s/vn
_
-
-
_
-
-
µ moyenne de la population x moyenne de
léchantillon sx écart-type de la distribution
déchantillonnage s écart-type de léchantillon
-
18Distribution déchantillonnage
- Imaginez quon ne prend pas seulement un
échantillon tiré au hasard, mais tous les
échantillons possibles... - Exemple simple population de cinq personnes,
échantillon de deux cas. Combien déchantillons
possibles? 10 - Exemple complexe population de 5 000 000
délecteurs québécois, échantillon de 1000 cas.
Combien déchantillons possibles? - 27 000 000 000 000 000 000 000 000 000 000 000
000 000 - Donc imaginez quon prend la moyenne de chacun de
ces échantillons... on peut alors construire
notre distribution déchantillonnage - À partir de 30 cas, la moyenne de cette
distribution déchantillonnage correspond à la
moyenne de la population la distribution
déchantillonnage suit une distribution normale. -
19De la moyenne de léchantillon à la moyenne de la
population...
- À 95 de certitude µ x 1,96 sx où sx
s/vn - À 99 de certitude µ x 2,58 sx où sx
s/vn
_
-
-
_
-
-
- Tous les éléments de la formule affectent
lampleur de lintervalle -
- Le niveau de confiance plus on veut être
confiant, plus grand sera lintervalle (et moins
lestimation sera précise - Lécart-type de léchantillon plus il y a de
dispersion, plus grand sera lintervalle (et
moins lestimation sera précise) - La taille de léchantillon plus grand est
léchantillon, plus petit sera lintervalle (et
plus lestimation sera précise)
20Exercice
- En Grande-Bretagne, on a demandé à un échantillon
de 2326 électeurs de donner leur appréciation de
chacun des partis sur une échelle de 0 à 10. - Quel est lintervalle de valeurs pour la moyenne
dans la population pour chacun des partis? - Sommes-nous exacts si nous affirmons quen
moyenne, les Britanniques préfèrent les Libéraux?
Moyenne Écart-type
Travaillistes 4,38 3,42
Conservateurs 3,89 3,05
Libéraux-Démoc. 4,62 2,93
21Le tableau croisé
- Lorsquon travaille avec des données
quantitatives, le tableau croisé est utilisé pour
observer la relation entre deux variables lorsque
ces variables ont peu de catégories. Un maximum
de 20 cellules est fortement recommandé. - En analyse confirmatoire, on travaille avec une
variable dépendante et au moins une variable
indépendante. Dans un tableau croisé, la
convention veut que la variable indépendante soit
sur le haut (colonnes) et la variable dépendante
sur le côté gauche (lignes, ou rangées). - Les pourcentages font référence à la variable
indépendante (colonnes).
22Le test du Chi2
- Basé sur lhypothèse que le chercheur a établi à
lavance une relation entre les deux variables - Suppose un échantillon aléatoire
- Le test est fiable si pas plus de 25 des
cellules ont moins de 5 cas de fréquence attendue
23Le Chi2 La relation entre le sexe et le fait
dêtre syndiqué
- Fréquences attendues
- (par lhypothèse nulle)
Homme Femme Total
Syndiqué 13 (65) 9 (33) 22 (47)
Pas syndiqué 7 (35) 18 (67) 25 (53)
Total 20 (100) 27 (100) 47 (100)
Homme Femme Total
Syndiqué 9,4 (47) 12,6 (47 22 (47)
Pas syndiqué 10,6 (53) 14,4 (53) 25 (53)
Total 20 (100) 27 (100) 47 (100)
Chi2 (1) 4,6 plt0,05
Chi2 (1) 0
24À Londres opinion sur la gestion du crime par le
gouvernement chez les partisans travaillistes et
les autres
Parti travailliste Autre parti Total
Très bonne gestion 2 (1,79) 2 (1,30) 4 (1,55)
Assez bonne gestion 45 (40,18 13 (8,44) 58 (22,48)
Ni bonne ni mauvaise gestion 31 (27,68) 48 (31,17 79 (30,62)
Assez mauvaise gestion 25 (22,32 39 (25,32) 64 (24,81)
Très mauvaise gestion 5 (4,46) 48 (31,17) 53 (20,54)
Total 112 (100) 154 (100) 266 (100)
Chi2 53.9768 p lt 0.000
- chisq.test(tableaucroisé)
- Pearson's Chi-squared test
- data tableaucroisé
- X-squared 53.9768, df 4 , p-value lt 0.000
-
R