Avancer - PowerPoint PPT Presentation

1 / 81
About This Presentation
Title:

Avancer

Description:

De r gression et ANOVA des donn es distribu es normalement vers l approche de mod lisation Wim Buysse Research Methods Group – PowerPoint PPT presentation

Number of Views:79
Avg rating:3.0/5.0
Slides: 82
Provided by: Wim103
Category:
Tags: avancer | carre | maladie

less

Transcript and Presenter's Notes

Title: Avancer


1
Avancer
De régression et ANOVA des données distribuées
normalement vers lapproche de modélisation
Wim Buysse
Research Methods Group
2
Avertissement
  • Le temps est limité.
  • But ouvrir tout un monde dapproches de
    modélisation
  • Avertissement Simple lt-gt simplicité

Research Methods Group
3
Partie 1. Quelques points clés
Ce tableau montre lâge de 3 membres de lunité
ICRAF-ILRI Research Methods Group. Ils sont tous
males, sélectionnés dans une façon aléatoire, ils
sont de la même ethnie et de la même région
géographique. Quel test ou analyse statistique
nous utiliserons pour prouver quelle personne est
la plus âgée ?
Research Methods Group
4
Partie 1. Quelques points clés
  • CONCLUSION 1
  • Comprenez plutôt les concepts et les principes
  • Mettez vos analyses statistiques dans le contexte
    du problème de recherche que vous voulez résoudre

Research Methods Group
5
Partie 1. Quelques points clés
  • NOUS FAISONS RECHERCHE APPLIQUÉ
  • Comment tu vas résoudre le problème?
  • Mettez des objectifs clairs et détaillés.

Research Methods Group
6
Partie 1. Quelques points clés
RÉGRESSION
Research Methods Group
7
Partie 1. Quelques points clés
  • CONCLUSION 2
  • Généralement, la statistique descriptive et
    lexploration visuelle des données donne déjà une
    réponse.
  • Si ce nest pas possible de trouver une réponse
    comme ça, ça veut dire que quelque chose nest
    pas correct.
  • Lanalyse statistique formelle donne simplement
    une confirmation de ce que vous voyez. Et ça
    ajoute des mesures de précision.

Research Methods Group
8
Partie 1. Quelques points clés
  • SIGNIFICATIF AU NIVEAU DE 5
  • Est un critère arbitraire, utilisé la première
    fois par Sir Ronald Fisher.
  • Ce critère était suivi sans réfléchir pendant des
    dizaines dannées par presque tout le monde.

Research Methods Group
9
Partie 1. Quelques points clés
  • CONCLUSION 3
  • Meilleur donnez le valeur p et interprétez le
    contexte.
  • P 0.065 ?
  • Largeur de léchantillon, largeur de
    lexpérimentation, erreurs systématiques,
    confusion, impact potentiel de lapplication des
    résultats de recherche, signification biologique
  • Être significatif nest pas toujours égale à être
    important

Research Methods Group
10
Partie 1. Quelques points clés
Research Methods Group
11
Partie 1. Quelques points clés
  • Être significatif lt-gt être important
  • Reese, R. Allan. 2004. Does significance matter?
    Significance vol. 1 issue 1 p. 39 40
  • Sterne, Jonathan A. C. Smith, George Davey.
    2001. Sifting the evidencewhat's wrong with
    significance tests? BMJ Vol. 322 p. 226-231

Research Methods Group
12
Partie 1. Quelques points clés
  • PLUS GÉNÉRALEMENT
  • Test dhypothèse
  • Comparaisons multiples
  • Ne cadre pas dans la philosophie la recherche
    est une façon structurée dapprendre comment
    résoudre des problèmes.

Research Methods Group
13
Partie 1. Quelques points clés
  • Test dhypothèse problèmes
  • Pauvre logique ne contribue pas à mieux
    comprendre le problème de recherche
  • Presque tous les hypothèses nuls sont faux dès le
    début
  • H0 pas de différence entre les traitements?
  • Même si on ajoute farine, chocolat, aux
    plantes, ça aura un effet quelque part
  • Si on continue a augmenter le largeur de
    léchantillon, il sera toujours un moment où on
    peut rejeter lhypothèse nul

Research Methods Group
14
Partie 1. Quelques points clés
  • Test dhypothèse problèmes
  • Il y a une tendance dans les publications
    scientifiques de présenter (ou dêtre accepté par
    des éditeurs) surtout des valeurs significatifs.
  • Suppositions du modèle
  • Les différentes groups comparés sont de la même
    population
  • Choix des paramètres du modèle
  • Distribution théorique

Research Methods Group
15
Partie 1. Quelques points clés
  • Test dhypothèse SOLUTION 4
  • Ne donne pas seulement le valeur p mais aussi
  • Estimation des paramètres, largeur de leffet
  • Leur précision

Research Methods Group
16
Partie 1. Quelques points clés
Research Methods Group
17
Partie 2. Modèles
Densité de Salmonella dans leau avec 3 niveaux
dacide et 2 niveau dactivité deau.
Research Methods Group
18
Partie 2. Modèles
Approche ANOVA.
Research Methods Group
19
Partie 2. Modèles
Résultats.
Research Methods Group
20
Partie 2. Modèles
Mêmes données, mais chaque traitement est
présenté comme dummy variable.
Research Methods Group
21
Partie 2. Modèles
Régression avec un premier variable indépendant.
Research Methods Group
22
Partie 2. Modèles
Régression avec deux variables indépendants.
Research Methods Group
23
Partie 2. Modèles
Régression avec trois variables indépendants.
Research Methods Group
24
Partie 2. Modèles
Régression avec quatre variables indépendants.
Research Methods Group
25
Partie 2. Modèles
On continue à construire le modèle.
Research Methods Group
26
Partie 2. Modèles
Finalement, les résultats.
Research Methods Group
27
Partie 2. Modèles
Comparaison des deux approches.
Research Methods Group
28
Partie 2. Modèles
  • Comparaison des deux approches
  • Les deux approches donnent les mêmes résultats
    globaux.
  • Lapproche à utiliser dépends de ce quon veut
    savoir.
  • Lapproche de régression marche encore où
    lapproche ANOVA ne marche plus (par exemple
    quand il y a des valeurs manquantes).

Research Methods Group
29
Exemple Approche modélisation des données
distribuées normalement
Données faire une enquête d'antécédents des
espèces appropriées pour une jachère améliorée de
trois ans fichier Fallow N.xls Protocole
p. 13 fichier part4.pdf
Research Methods Group
30
Exemple Approche modélisation des données
distribuées normalement
Description de lanalyse dans chapitre 19 Good
statistical practice for natural resources
research
Il y a des copies disponible dans la
bibliothèque de lINERA
Research Methods Group
31
Approche modélisation des données distribuées
normalement
  • 5 étapes
  • Explorez les données pour détecter des tendances
    et des relations
  • Choisissez une modele possible
  • Tendance quon voit
  • Connaissance du design de lexpérience
  • Connaissance biologique/scientifique du processus
  • Fitting estimation des paramètres
  • Check contrôler le fit
  • Interprétation pour répondre aux objectifs de
    lanalyse.

Research Methods Group
32
Partie 3. Élargir le modèle
  • ANOVA et régression
  • Même calculs
  • Données tendance bruit
  • composante systématique composante aléatoire
  • Même suppositions
  • Des composantes peuvent être additionnées
  • Variabilité des groups est similaire
  • Composante aléatoire est distribuée
    approximativement par la distribution normale. La
    variabilité aléatoire de  y  autour du
    composante systématique nest pas affectée par la
    composante systématique.

Research Methods Group
33
GENERAL LINEAR MODELS
Research Methods Group
34
GENERAL LINEAR MODELS
Research Methods Group
35
GENERAL LINEAR MODELS
Données tendance
bruit Tendance est expliquée par une
combinaison linéaire des variables
indépendantes (Données N(m,v) et la variance
est constante parmi les groups) Bruit N(0,1) et
la variance est constante parmi les groups
Research Methods Group
36
Partie 3. Élargir le modèle
  • Si les données ne sont pas distribuées
    normalement ou si la variabilité des différents
    groups nest pas similaire
  • Approche possible transformation des données
     linéariser  le modèle
  • Problèmes
  • On ne travaille plus sur une échelle qui a une
    signification biologique.
  • Retransformer les écart types de nouveau dans
    léchelle originale nest pas possible.

Research Methods Group
37
Partie 3. Élargir le modèle
Solution meilleure GENERAL LINEAR MODELS gt
GENERALIZED LINEAR MODELS
  • Deux différences essentielles
  • Distribution des données selon la famille
    exponentielle des distribution Normal,
    Binomial, Poisson, Gamma, Negative binomial
  • Link function le lien entre E(Y) et les
    variables indépendantes nest plus une
    combinaison linéaire mais peut être une
    combinaison linéaire dune fonction de la moyenne
    (transformation des valeurs dépendantes

Research Methods Group
38
Partie 3. Élargir le modèle
Solution meilleure GENERAL LINEAR MODELS gt
GENERALIZED LINEAR MODELS
  • Aussi
  • La composante systématique (combinaison des
    variables indépendantes) peut inclure des
    variables continues, catégoriques ou des
    fonctions polynomiales
  • Encore
  • la variance est constante parmi les groups (ou
    est devenu constante a cause de la transformation
    (link function)

Research Methods Group
39
Partie 3. Élargir le modèle
Statistique et théorie plus difficile, mais les
menus en GenStat sont très similaires à ce que
nous connaissons.
Research Methods Group
40


Research Methods Group
41
Partie 4. LOGISTIC REGRESSION
Exemple maladie cardio-vasculaire selon âge
age and chd.xls
Research Methods Group
42
Partie 4. LOGISTIC REGRESSION
Exemple mêmes données mais par group dâge
Research Methods Group
43
Partie 4. LOGISTIC REGRESSION
Exemple régression linéaire nest pas
appropriée et des prédictions ne seront pas
correctes aux extrêmes
Research Methods Group
44
Partie 4. LOGISTIC REGRESSION
Exemple test ?2 information limitée
Research Methods Group
45
Partie 4. LOGISTIC REGRESSION
  • Processus Bernoulli un événement (indépendant)
    qui peut avoir deux résultats possible (1 0,
    succéder échouer, ) avec une probabilité
    spécifique pour succéder
  • Jeter une monnaie pile ou face p 0,5
  • Jeter 6 aux des (succéder) face à jeter un autre
    numéro p 1/6
  • Faire une enquête est-ce que le chef du ménage
    sera mâle ou femelle? pproportion selon les
    données récoltés
  • faire une enquête d'antécédents sur des maladies
    cardio-vasculaires. p maladie 43 des 100
    individus 0.43

Research Methods Group
46
Partie 4. LOGISTIC REGRESSION
  • En GenStat

Research Methods Group
47
Partie 4. LOGISTIC REGRESSION
  • Logistic function

Research Methods Group
48
Partie 4. LOGISTIC REGRESSION
  • Logistic function
  • Forme sigmoïde
  • Linéaire au centre
  • Probabilité est limitée entre 0 et 1
  • Petites valeurs aplatie vers 0 grandes valeurs
    aplatie vers 1

Research Methods Group
49
Partie 4. LOGISTIC REGRESSION
  • GenStat output
  • Similaire, mais deviance au lieu de variance
    et test ?2 au lieu de test F

Research Methods Group
50
Partie 4. LOGISTIC REGRESSION
  • GenStat output
  • modèle
  • Logit(CHD) -5,31 0,1109 AGE

Research Methods Group
51
Partie 4. LOGISTIC REGRESSION
  • Logit(CHD) -5,31 0,1109 AGE

Research Methods Group
52
Partie 4. LOGISTIC REGRESSION
Research Methods Group
53
Partie 4. LOGISTIC REGRESSION
  • Distribution binomiale on répète le processus
    Bernoulli, lordre de succéder ou échouer peut
    changer
  • Exemple chef de ménage dans lenquête

Research Methods Group
54
Partie 4. LOGISTIC REGRESSION
  • Si succès chef femelle avec p 0,2

Research Methods Group
55
Partie 4. LOGISTIC REGRESSION
  • Probabilité dobtenir des succès
  • On peut construire une distribution des
    fréquences dobtenir des succès
  • Probabilité fréquence sur longe terme
    fréquence avec beaucoup de données
  • distribution binomiale

Research Methods Group
56
Partie 4. LOGISTIC REGRESSION
  • Distribution binomiale
  • Pour le comptage des faits dun variable
    catégorique
  • Exemple survie des arbres selon provenance dans
    une expérience
  • Fichier survival trees.xls

Research Methods Group
57
Partie 4. LOGISTIC REGRESSION
  • Différentes approches possibles

1
Research Methods Group
58
Partie 4. LOGISTIC REGRESSION
  • Différentes approches possibles

1
Research Methods Group
59
Partie 4. LOGISTIC REGRESSION
  • Différentes approches possibles

2
Research Methods Group
60
Partie 4. LOGISTIC REGRESSION
  • Différentes approches possibles

2
Research Methods Group
61
Partie 4. LOGISTIC REGRESSION
  • Différentes approches possibles

3
Research Methods Group
62
Partie 4. LOGISTIC REGRESSION
  • Différentes approches possibles

3
Research Methods Group
63
Partie 4. LOGISTIC REGRESSION
  • La distribution Bernoulli est un cas spécial de
    la distribution binomiale
  • On parle des familles des distributions.

Research Methods Group
64
Partie 4. LOGISTIC REGRESSION
  • La différence se trouve bien sur dans la partie
    du variabilité qui est expliquée

1
2
3
Research Methods Group
65
Partie 5. MODÉLISATION DES COMPTES - Poisson
  • Nous avons utilisé logistic regression pour
    analyser des comptes.
  • Distribution Bernoulli distribution du succès
    des événements qui suivent un processus Bernoulli
    (1 ou 0, oui ou non)
  • Distribution binomiale distribution des
    combinaisons possibles (et indépendantes) des
    événements Bernoulli
  • Donc, cétait plutôt lanalyse des rapports.
  • Distribution Poisson distribution des comptes
    des événements Bernoulli

Research Methods Group
66
Partie 5. MODÉLISATION DES COMPTES - Poisson
  • Distribution Poisson distribution des comptes
    des événements Bernoulli
  • MAIS
  • p est très petit
  • n est très large
  • pn lt 5
  • Les événements se passent lun de lautre dans
    une façon indépendante et aléatoire.

Research Methods Group
67
Partie 5. MODÉLISATION DES COMPTES - Poisson
  • Distribution Poisson distribution des
    événements rares
  • Nombre des accidents avec des avions civiles
    (quand il ny a pas de guerre) dans tout le monde
    pendant plusieurs années.
  • Nombre de semences infecté dans des lots de
    semence qui sont certifies par lINERA
  • Nombre dindividus dune espèce darbre rare dans
    un kilomètre carre dans la même zone écologique

Research Methods Group
68
Partie 5. MODÉLISATION DES COMPTES
  • DONC
  • La distribution qui décrit bien les comptes nest
    pas automatiquement la distribution Poisson.
  • Ça dépend du contexte.

Research Methods Group
69
Partie 5. MODÉLISATION DES COMPTES - Poisson
  • Un peu de mathématique

Le rapport moyen/variance doit être 1. Poisson
index En GenStat (s2-m)/m
Research Methods Group
70
Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
Nous avons déjà brièvement vu des autres comptes
test ?2
test ?2 est-ce quil y a de lévidence quil
existe une association parmi les 2 variables
discrètes H0 pas dassociation H1 association
Research Methods Group
71
Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
Maintenant nous utilisons une autre probabilité
pour calculer le test
Research Methods Group
72
Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
Si les comptes dans les cellules sont considérés
comme une variable, nous pouvons construire une
distribution de la fréquence.
Research Methods Group
73
Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
  • Distribution de la fréquence sur longe terme
    distribution de probabilité
  • Nous venons délargir la distribution binomiale
    vers la distribution multinomiale
  • Distribution binomiale
  • Observations indépendantes
  • p succès la même partout ou p dune observation
    individuelle de tomber dans une cellule
    spécifique du tableau est la même que pour tomber
    dans des autres cellules
  • Distribution multinomiale
  • Le nombre des observations total (leffectif) est
    fixe

Research Methods Group
74
Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
Si leffectif nétait pas fixe gt distribution
Poisson MAIS Grace à beaucoup de théorie
statistique difficile nous pouvons aussi
utiliser la distribution Poisson même si
leffectif nest pas fixe.
Research Methods Group
75
Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
DONC Bien que le contexte est important pour
décider si nous pouvons utiliser la distribution
Poisson pour analyser des comptes (distribution
des événements rares) Généralement Analyse
des multiway contingency tables gt distribution
Poisson logarithm link LOGLINEAR MODELING
Research Methods Group
76
Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
  • Analyser des comptes
  • Souvent nous pouvons utiliser la distribution
    Poisson
  • Mais pas toujours

Research Methods Group
77
Partie 5. MODÉLISATION DES COMPTES LOGLINEAR
MODELLING

Research Methods Group
78
Partie 5. MODÉLISATION DES COMPTES LOGLINEAR
MODELLING
Ajouter des interactions
Research Methods Group
79
Partie 5. MODÉLISATION DES COMPTES LOGLINEAR
MODELLING
test ?2

Loglinear modelling
Research Methods Group
80
Partie 5. MODÉLISATION DES COMPTES LOGLINEAR
MODELLING
  • Modélisation des données complexes
  • Ajouter ou laisser tomber des termes et
    interactions dans le modèle et changer lordre
  • Bon modèle (good fit ) quand le residual
    deviance est presque égal au numéro de dégrées
    de liberté (ou mean deviance 0)
  • A ce moment, on peut sattendre à ce qui reste de
    variabilité venant de la variabilité aléatoire
  • Ajouter trop de termes residual deviance gt 0

Research Methods Group
81
Partie 5. MODÉLISATION DES COMPTES LOGLINEAR
MODELLING
  • Exemple lambs.xls

Research Methods Group
Write a Comment
User Comments (0)
About PowerShow.com