Avancer

About This Presentation

Title:

Avancer

Description:

De r gression et ANOVA des donn es distribu es normalement vers l approche de mod lisation Wim Buysse Research Methods Group – PowerPoint PPT presentation

Number of Views:84

Avg rating:3.0/5.0

Slides: 82

Provided by: Wim103

Category:

more less

Transcript and Presenter's Notes

Title: Avancer

1
Avancer
De régression et ANOVA des données distribuées
normalement vers lapproche de modélisation
Wim Buysse
Research Methods Group
2
Avertissement

Le temps est limité.
But ouvrir tout un monde dapproches de
modélisation
Avertissement Simple lt-gt simplicité

Research Methods Group
3
Partie 1. Quelques points clés
Ce tableau montre lâge de 3 membres de lunité
ICRAF-ILRI Research Methods Group. Ils sont tous
males, sélectionnés dans une façon aléatoire, ils
sont de la même ethnie et de la même région
géographique. Quel test ou analyse statistique
nous utiliserons pour prouver quelle personne est
la plus âgée ?
Research Methods Group
4
Partie 1. Quelques points clés

CONCLUSION 1
Comprenez plutôt les concepts et les principes
Mettez vos analyses statistiques dans le contexte
du problème de recherche que vous voulez résoudre

Research Methods Group
5
Partie 1. Quelques points clés

NOUS FAISONS RECHERCHE APPLIQUÉ
Comment tu vas résoudre le problème?
Mettez des objectifs clairs et détaillés.

Research Methods Group
6
Partie 1. Quelques points clés
RÉGRESSION
Research Methods Group
7
Partie 1. Quelques points clés

CONCLUSION 2
Généralement, la statistique descriptive et
lexploration visuelle des données donne déjà une
réponse.
Si ce nest pas possible de trouver une réponse
comme ça, ça veut dire que quelque chose nest
pas correct.
Lanalyse statistique formelle donne simplement
une confirmation de ce que vous voyez. Et ça
ajoute des mesures de précision.

Research Methods Group
8
Partie 1. Quelques points clés

SIGNIFICATIF AU NIVEAU DE 5
Est un critère arbitraire, utilisé la première
fois par Sir Ronald Fisher.
Ce critère était suivi sans réfléchir pendant des
dizaines dannées par presque tout le monde.

Research Methods Group
9
Partie 1. Quelques points clés

CONCLUSION 3
Meilleur donnez le valeur p et interprétez le
contexte.
P 0.065 ?
Largeur de léchantillon, largeur de
lexpérimentation, erreurs systématiques,
confusion, impact potentiel de lapplication des
résultats de recherche, signification biologique
Être significatif nest pas toujours égale à être
important

Research Methods Group
10
Partie 1. Quelques points clés
Research Methods Group
11
Partie 1. Quelques points clés

Être significatif lt-gt être important
Reese, R. Allan. 2004. Does significance matter?
Significance vol. 1 issue 1 p. 39 40
Sterne, Jonathan A. C. Smith, George Davey.
2001. Sifting the evidencewhat's wrong with
significance tests? BMJ Vol. 322 p. 226-231

Research Methods Group
12
Partie 1. Quelques points clés

PLUS GÉNÉRALEMENT
Test dhypothèse
Comparaisons multiples
Ne cadre pas dans la philosophie la recherche
est une façon structurée dapprendre comment
résoudre des problèmes.

Research Methods Group
13
Partie 1. Quelques points clés

Test dhypothèse problèmes
Pauvre logique ne contribue pas à mieux
comprendre le problème de recherche
Presque tous les hypothèses nuls sont faux dès le
début
H0 pas de différence entre les traitements?
Même si on ajoute farine, chocolat, aux
plantes, ça aura un effet quelque part
Si on continue a augmenter le largeur de
léchantillon, il sera toujours un moment où on
peut rejeter lhypothèse nul

Research Methods Group
14
Partie 1. Quelques points clés

Test dhypothèse problèmes
Il y a une tendance dans les publications
scientifiques de présenter (ou dêtre accepté par
des éditeurs) surtout des valeurs significatifs.
Suppositions du modèle
Les différentes groups comparés sont de la même
population
Choix des paramètres du modèle
Distribution théorique

Research Methods Group
15
Partie 1. Quelques points clés

Test dhypothèse SOLUTION 4
Ne donne pas seulement le valeur p mais aussi
Estimation des paramètres, largeur de leffet
Leur précision

Research Methods Group
16
Partie 1. Quelques points clés
Research Methods Group
17
Partie 2. Modèles
Densité de Salmonella dans leau avec 3 niveaux
dacide et 2 niveau dactivité deau.
Research Methods Group
18
Partie 2. Modèles
Approche ANOVA.
Research Methods Group
19
Partie 2. Modèles
Résultats.
Research Methods Group
20
Partie 2. Modèles
Mêmes données, mais chaque traitement est
présenté comme dummy variable.
Research Methods Group
21
Partie 2. Modèles
Régression avec un premier variable indépendant.
Research Methods Group
22
Partie 2. Modèles
Régression avec deux variables indépendants.
Research Methods Group
23
Partie 2. Modèles
Régression avec trois variables indépendants.
Research Methods Group
24
Partie 2. Modèles
Régression avec quatre variables indépendants.
Research Methods Group
25
Partie 2. Modèles
On continue à construire le modèle.
Research Methods Group
26
Partie 2. Modèles
Finalement, les résultats.
Research Methods Group
27
Partie 2. Modèles
Comparaison des deux approches.
Research Methods Group
28
Partie 2. Modèles

Comparaison des deux approches
Les deux approches donnent les mêmes résultats
globaux.
Lapproche à utiliser dépends de ce quon veut
savoir.
Lapproche de régression marche encore où
lapproche ANOVA ne marche plus (par exemple
quand il y a des valeurs manquantes).

Research Methods Group
29
Exemple Approche modélisation des données
distribuées normalement
Données faire une enquête d'antécédents des
espèces appropriées pour une jachère améliorée de
trois ans fichier Fallow N.xls Protocole
p. 13 fichier part4.pdf
Research Methods Group
30
Exemple Approche modélisation des données
distribuées normalement
Description de lanalyse dans chapitre 19 Good
statistical practice for natural resources
research
Il y a des copies disponible dans la
bibliothèque de lINERA
Research Methods Group
31
Approche modélisation des données distribuées
normalement

5 étapes
Explorez les données pour détecter des tendances
et des relations
Choisissez une modele possible
Tendance quon voit
Connaissance du design de lexpérience
Connaissance biologique/scientifique du processus
Fitting estimation des paramètres
Check contrôler le fit
Interprétation pour répondre aux objectifs de
lanalyse.

Research Methods Group
32
Partie 3. Élargir le modèle

ANOVA et régression
Même calculs
Données tendance bruit
composante systématique composante aléatoire
Même suppositions
Des composantes peuvent être additionnées
Variabilité des groups est similaire
Composante aléatoire est distribuée
approximativement par la distribution normale. La
variabilité aléatoire de y autour du
composante systématique nest pas affectée par la
composante systématique.

Research Methods Group
33
GENERAL LINEAR MODELS
Research Methods Group
34
GENERAL LINEAR MODELS
Research Methods Group
35
GENERAL LINEAR MODELS
Données tendance
bruit Tendance est expliquée par une
combinaison linéaire des variables
indépendantes (Données N(m,v) et la variance
est constante parmi les groups) Bruit N(0,1) et
la variance est constante parmi les groups
Research Methods Group
36
Partie 3. Élargir le modèle

Si les données ne sont pas distribuées
normalement ou si la variabilité des différents
groups nest pas similaire
Approche possible transformation des données
linéariser le modèle
Problèmes
On ne travaille plus sur une échelle qui a une
signification biologique.
Retransformer les écart types de nouveau dans
léchelle originale nest pas possible.

Research Methods Group
37
Partie 3. Élargir le modèle
Solution meilleure GENERAL LINEAR MODELS gt
GENERALIZED LINEAR MODELS

Deux différences essentielles
Distribution des données selon la famille
exponentielle des distribution Normal,
Binomial, Poisson, Gamma, Negative binomial
Link function le lien entre E(Y) et les
variables indépendantes nest plus une
combinaison linéaire mais peut être une
combinaison linéaire dune fonction de la moyenne
(transformation des valeurs dépendantes

Research Methods Group
38
Partie 3. Élargir le modèle
Solution meilleure GENERAL LINEAR MODELS gt
GENERALIZED LINEAR MODELS

Aussi
La composante systématique (combinaison des
variables indépendantes) peut inclure des
variables continues, catégoriques ou des
fonctions polynomiales
Encore
la variance est constante parmi les groups (ou
est devenu constante a cause de la transformation
(link function)

Research Methods Group
39
Partie 3. Élargir le modèle
Statistique et théorie plus difficile, mais les
menus en GenStat sont très similaires à ce que
nous connaissons.
Research Methods Group
40

Research Methods Group
41
Partie 4. LOGISTIC REGRESSION
Exemple maladie cardio-vasculaire selon âge
age and chd.xls
Research Methods Group
42
Partie 4. LOGISTIC REGRESSION
Exemple mêmes données mais par group dâge
Research Methods Group
43
Partie 4. LOGISTIC REGRESSION
Exemple régression linéaire nest pas
appropriée et des prédictions ne seront pas
correctes aux extrêmes
Research Methods Group
44
Partie 4. LOGISTIC REGRESSION
Exemple test ?2 information limitée
Research Methods Group
45
Partie 4. LOGISTIC REGRESSION

Processus Bernoulli un événement (indépendant)
qui peut avoir deux résultats possible (1 0,
succéder échouer, ) avec une probabilité
spécifique pour succéder
Jeter une monnaie pile ou face p 0,5
Jeter 6 aux des (succéder) face à jeter un autre
numéro p 1/6
Faire une enquête est-ce que le chef du ménage
sera mâle ou femelle? pproportion selon les
données récoltés
faire une enquête d'antécédents sur des maladies
cardio-vasculaires. p maladie 43 des 100
individus 0.43

Research Methods Group
46
Partie 4. LOGISTIC REGRESSION

En GenStat

Research Methods Group
47
Partie 4. LOGISTIC REGRESSION

Logistic function

Research Methods Group
48
Partie 4. LOGISTIC REGRESSION

Logistic function
Forme sigmoïde
Linéaire au centre
Probabilité est limitée entre 0 et 1
Petites valeurs aplatie vers 0 grandes valeurs
aplatie vers 1

Research Methods Group
49
Partie 4. LOGISTIC REGRESSION

GenStat output
Similaire, mais deviance au lieu de variance
et test ?2 au lieu de test F

Research Methods Group
50
Partie 4. LOGISTIC REGRESSION

GenStat output
modèle

Logit(CHD) -5,31 0,1109 AGE

Research Methods Group
51
Partie 4. LOGISTIC REGRESSION

Logit(CHD) -5,31 0,1109 AGE

Research Methods Group
52
Partie 4. LOGISTIC REGRESSION
Research Methods Group
53
Partie 4. LOGISTIC REGRESSION

Distribution binomiale on répète le processus
Bernoulli, lordre de succéder ou échouer peut
changer
Exemple chef de ménage dans lenquête

Research Methods Group
54
Partie 4. LOGISTIC REGRESSION

Si succès chef femelle avec p 0,2

Research Methods Group
55
Partie 4. LOGISTIC REGRESSION

Probabilité dobtenir des succès

On peut construire une distribution des
fréquences dobtenir des succès
Probabilité fréquence sur longe terme
fréquence avec beaucoup de données
distribution binomiale

Research Methods Group
56
Partie 4. LOGISTIC REGRESSION

Distribution binomiale
Pour le comptage des faits dun variable
catégorique
Exemple survie des arbres selon provenance dans
une expérience
Fichier survival trees.xls

Research Methods Group
57
Partie 4. LOGISTIC REGRESSION

Différentes approches possibles

1
Research Methods Group
58
Partie 4. LOGISTIC REGRESSION

Différentes approches possibles

1
Research Methods Group
59
Partie 4. LOGISTIC REGRESSION

Différentes approches possibles

2
Research Methods Group
60
Partie 4. LOGISTIC REGRESSION

Différentes approches possibles

2
Research Methods Group
61
Partie 4. LOGISTIC REGRESSION

Différentes approches possibles

3
Research Methods Group
62
Partie 4. LOGISTIC REGRESSION

Différentes approches possibles

3
Research Methods Group
63
Partie 4. LOGISTIC REGRESSION

La distribution Bernoulli est un cas spécial de
la distribution binomiale
On parle des familles des distributions.

Research Methods Group
64
Partie 4. LOGISTIC REGRESSION

La différence se trouve bien sur dans la partie
du variabilité qui est expliquée

1
2
3
Research Methods Group
65
Partie 5. MODÉLISATION DES COMPTES - Poisson

Nous avons utilisé logistic regression pour
analyser des comptes.
Distribution Bernoulli distribution du succès
des événements qui suivent un processus Bernoulli
(1 ou 0, oui ou non)
Distribution binomiale distribution des
combinaisons possibles (et indépendantes) des
événements Bernoulli
Donc, cétait plutôt lanalyse des rapports.
Distribution Poisson distribution des comptes
des événements Bernoulli

Research Methods Group
66
Partie 5. MODÉLISATION DES COMPTES - Poisson

Distribution Poisson distribution des comptes
des événements Bernoulli
MAIS
p est très petit
n est très large
pn lt 5
Les événements se passent lun de lautre dans
une façon indépendante et aléatoire.

Research Methods Group
67
Partie 5. MODÉLISATION DES COMPTES - Poisson

Distribution Poisson distribution des
événements rares
Nombre des accidents avec des avions civiles
(quand il ny a pas de guerre) dans tout le monde
pendant plusieurs années.
Nombre de semences infecté dans des lots de
semence qui sont certifies par lINERA
Nombre dindividus dune espèce darbre rare dans
un kilomètre carre dans la même zone écologique

Research Methods Group
68
Partie 5. MODÉLISATION DES COMPTES

DONC
La distribution qui décrit bien les comptes nest
pas automatiquement la distribution Poisson.
Ça dépend du contexte.

Research Methods Group
69
Partie 5. MODÉLISATION DES COMPTES - Poisson

Un peu de mathématique

Le rapport moyen/variance doit être 1. Poisson
index En GenStat (s2-m)/m
Research Methods Group
70
Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
Nous avons déjà brièvement vu des autres comptes
test ?2
test ?2 est-ce quil y a de lévidence quil
existe une association parmi les 2 variables
discrètes H0 pas dassociation H1 association
Research Methods Group
71
Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
Maintenant nous utilisons une autre probabilité
pour calculer le test
Research Methods Group
72
Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
Si les comptes dans les cellules sont considérés
comme une variable, nous pouvons construire une
distribution de la fréquence.
Research Methods Group
73
Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables

Distribution de la fréquence sur longe terme
distribution de probabilité
Nous venons délargir la distribution binomiale
vers la distribution multinomiale
Distribution binomiale
Observations indépendantes
p succès la même partout ou p dune observation
individuelle de tomber dans une cellule
spécifique du tableau est la même que pour tomber
dans des autres cellules
Distribution multinomiale
Le nombre des observations total (leffectif) est
fixe

Research Methods Group
74
Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
Si leffectif nétait pas fixe gt distribution
Poisson MAIS Grace à beaucoup de théorie
statistique difficile nous pouvons aussi
utiliser la distribution Poisson même si
leffectif nest pas fixe.
Research Methods Group
75
Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
DONC Bien que le contexte est important pour
décider si nous pouvons utiliser la distribution
Poisson pour analyser des comptes (distribution
des événements rares) Généralement Analyse
des multiway contingency tables gt distribution
Poisson logarithm link LOGLINEAR MODELING
Research Methods Group
76
Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables

Analyser des comptes
Souvent nous pouvons utiliser la distribution
Poisson
Mais pas toujours

Research Methods Group
77
Partie 5. MODÉLISATION DES COMPTES LOGLINEAR
MODELLING

Research Methods Group
78
Partie 5. MODÉLISATION DES COMPTES LOGLINEAR
MODELLING
Ajouter des interactions
Research Methods Group
79
Partie 5. MODÉLISATION DES COMPTES LOGLINEAR
MODELLING
test ?2

Loglinear modelling
Research Methods Group
80
Partie 5. MODÉLISATION DES COMPTES LOGLINEAR
MODELLING

Modélisation des données complexes
Ajouter ou laisser tomber des termes et
interactions dans le modèle et changer lordre
Bon modèle (good fit ) quand le residual
deviance est presque égal au numéro de dégrées
de liberté (ou mean deviance 0)
A ce moment, on peut sattendre à ce qui reste de
variabilité venant de la variabilité aléatoire
Ajouter trop de termes residual deviance gt 0

Research Methods Group
81
Partie 5. MODÉLISATION DES COMPTES LOGLINEAR
MODELLING