Title: Risques d
1Risques derreur statistique et test statistique
2Origine de la problématique
3Fluctuations aléatoires
Obtenir pile à pile ou face (Probabilité 50)
4Fluctuations aléatoires
Même type de patients (Probabilité d'AVC 12)
5Fluctuations aléatoires d'échantillonnage
- Fortes pour des effectifs petits et moyens
- Faibles pour des grands effectifs
- Jamais nulles
6- Conséquences pour la comparaison de 2
échantillons - les proportions observées dans 2 échantillons
peuvent être différentes - uniquement du fait du hasard
- même si dans ces 2 échantillons la vraie
probabilité était la même - les FAE sont susceptibles de fausser les
comparaisons
7Conséquences des fluctuations
Effet du traitement 0
Vrai risque 10
Vrai risque 10
Groupe T
Groupe T-
Risque observé 6
Risque observé 12
Différence observée -6
8Problématique des comparaisons
- Quand on ignore la réalité,
- la différence observée de -6 est-elle ?
- une manifestation des fluctuations aléatoires,
donc due uniquement au hasard - la traduction dune réelle différence entre les
deux groupes, donc dun effet non nul du
traitement - Comment départager ces 2 possibilités ?
- Solution test statistique .
9But des comparaisons
- Quel est le but des comparaisons ?
Grp T
Conclure à l'existence d'une différence
Décider d'utiliser le nouveau traitement
diff -6
Grp C
La conclusion doit être conforme à la
réalité mais elle se base uniquement sur lobservé
10Effets des fluctuations dans une comparaison
- Le hasard peut faire apparaître une différence
qui n'existe pas en réalité - Inversement, le hasard peut réduire une
différence qui existe réellement - donc 2 façons de fausser la conclusion
11Risques derreur statistique
12Risques de conclusions erronées
- Deux risques d'erreur
- Risque alpha
- Risque bêta
- Erreurs statistiques
- dues uniquement au hasard
13Erreur statistique alpha
- Conclure à l'existence d'une différence qui
n'existe pas en réalité faux positif
Échantillon 1 7.5
Différence non réelle
Vrai valeur 12
Échantillon 2 15
14Erreur statistique bêta
- Ne pas conclure à une différence qui existe
pourtant en réalité faux négatif
Vrai valeur 12
Échantillon 1 15
Fausse absence de différence
Échantillon 2 15
Vrai valeur 19
15Risques d'erreur statistiques
- Risque alpha risque de conclure à une
différence qui nexiste pas - Risque bêta risque de ne pas mettre en évidence
une différence qui existe réellement - Puissance 1 - bêta probabilité de mettre en
évidence une différence qui existe réellement
16Application à lessai thérapeutique
- Risque alpha considérer comme efficace un
traitement qui ne lest pas - Risque bêta ne pas conclure alors que le
traitement est efficace - Puissance montrer lefficacité dun traitement
réellement efficace
17Conclusion
Différence
Pas de différence
Erreur bêta
Différence
Réalité
Erreur alpha
Pas de différence
18Tests statistiques
- Outils d'aide à la décision
- Principe
- conclure à une différence
- que si le risque de faire une erreur (de première
espèce) est faible - Quantification du risque d'erreur alpha
- à partir des données disponibles
- (Risque de commettre une erreur alpha risque
alpha)
19Principe général
p1 7
Quelle est la probabilité de commettre une
erreur si je conclus à partir de ces données à
l'existence d'une réelle différence
p0 13
Probabilité faible
Probabilité forte
Conclusion
Pas de conclusion
Conclure à l'existence d'une différence que si le
risque de faire une conclusion erronée est faible
20Démarche du test statistique
- Calcul de la probabilité p
- p probabilité que "la différence observée soit
due uniquement au hasard" - p représente le risque de faire une conclusion
erronée si l'on décidait de conclure - p est une quantification du risque alpha
- On ne conclut que si ce risque d'erreur est
suffisamment petit
21Seuil de risque
- Seuil de risque de conclusion erronée acceptable
- seuil de risque alpha 5
- p lt 5
- on prend le risque de conclure
- p gt 5
- on ne conclut pas
- lt ou ? ?
22Signification statistique
Différence observée
Test
Seuil de signification statistique
23- Le test statistique est un moyen
- qui autorise à conclure à l'existence d'une
différence - que si le risque de commettre une erreur est
faible - Risque d'erreur faible 5 (en général)
- seuil de décision
- Contrôle du risque alpha
- mais le risque d'erreurs alpha persiste
- 100 essais avec un traitement sans efficacité
- conclusion à tort à l'efficacité dans 5 essais
24Réalisation du test
- Calcul à partir des données de la probabilité de
commettre une erreur alpha p
plt5 ? conclusion à l'existence de la
différence parce que le risque de faire une
conclusion fausse est faible
p1 7
p 0.04
p0 13
pgt5 ? impossible de conclure à l'existence d'une
différence car si on concluait à une différence,
le risque d'erreur serait trop fort
p1 20
p 0.25
p0 17
25P lt 0.05
- En concluant à l'efficacité, on prend un risque
de 5 de faire une conclusion erronée - 5 est un risque d'erreur élevé
- en pratique 2 essais significatifs
- risque 5 5 2.5/1000
26Disparition du risque d'erreur bêta
- Le risque bêta est incalculable
- Impossible de quantifier le risque d'erreur quand
on fait une conclusion d'absence de différence - il est donc impossible de faire ce type de
conclusion - les tests permettent seulement de conclure à
l'existence d'une différence - en cas de différence non signification
- impossible de conclure
- et ne permet surtout pas de conclure à l'absence
de différence vu que le risque d'erreur est
inconnu - "l'absence de preuve n'est pas la preuve de
l'absence"
27Différence non significative
Absence réelle d'effet
- Impossible de conclure
- Ne pas conclure à labsence de différence
- Labsence de preuve nest pas la preuve de
labsence
Résultat non significatif
?
Manque de puissance
28OBJECTIF Evaluer lefficacité dune injection
unique de tobramycine (T) chez des patientes
traitées pour une pyélonéphrite aiguë
noncompliquée par de la ciprofloxacine (CIP) (500
mg 2 fois par jour per os). RÉSULTATS Cent dix
huit patientes ont été inclues, 60 dans le
groupe tobramycine et 58 dans le groupe placebo.
E. coli a été isolé de façon prédominante et tous
les germes isolés étaient sensibles à la
ciprofloxacine RÉSULTATS Cent dix huit
patientes ont été inclues, 60 dans le groupe
tobramycine et 58 dans le groupe placebo. E. coli
a été isolé de façon prédominante et tous les
germes isolés étaient sensibles à la
ciprofloxacine et à la tobramycine. Deux échecs
sont survenus dans le groupe CIP T et 4 dans le
groupe CIP P (non significatif). CONCLUSION
Ladministration dune dose de tobramycine
naméliore aucun paramètre clinique dans le
traitement des pyélonéphrites aiguës non
compliquées traitées par de la ciprofloxacine par
voie orale.
29(No Transcript)
30Dualité entre test et intervalle de confiance
31définition des IC
- Intervalle qui a 95 de chance de contenir la
vraie valeur - il est raisonnable de parier que la vraie valeur
est dans l'intervalle (prob de 95) - il est peu probable (prob 5)
- que la vraie valeur soit gt à bs
- ou que la vraie valeur soit lt à bi
- il est donc peu raisonnable de parier que la
vraie valeur soit à l'extérieur de l'IC
32Intervalle de confiance
- Différence -6
- IC 95 -8-4
- Lintervalle -8-4 à 95 de chance de
contenir la vraie valeur de la différence - reflète l'incertitude de l'estimation
- Il n'est pas possible d'exclure que le vrai effet
ne soit que de -4 - situation la pire
- efficacité plus faible que les -6 de
l'estimation ponctuelle
33- Ensemble des valeurs non statistiquement
différentes du résultats
34Relation entre IC et test
- IC dune différence n'incluant pas 0
- -10 -4
- la probabilité davoir ce type dintervalle si la
vraie valeur est zero est lt5 - donc il est possible de conclure à une différence
non nulle car le risque derreur alpha est lt5 - différence significative (au seuil de 5)
- IC de la différence des risques incluant 0
- -20 20
- différence non significative
35Plt0.05
-5 -10,-2
-2 -92
NS
Différence
0
36Pertinence clinique
- Signification statistique ? pertinence clinique
- Réduction de mortalité de 25 à 12, plt0.05
- réduction statistiquement significative
- pertinente cliniquement
- Réduction de mortalité de 2.3 à 2.1, plt0.05
- réduction statistiquement significative
- peu pertinente cliniquement
37Présentation théorique
38Théorie des tests d'hypothèses
- Hypothèse nulle
- H0 p1 - p0 0 (p1 p0) (le traitement n'a
pas d'effet) - Hypothèse alternative
- H1 p1 - p0 ? 0 (p1 ? p0) (le traitement à un
effet) - Test statistique
- retenir une de ces 2 hypothèses
- en fonction des données recueillies
39- Risques d'erreur alpha et bêta
- ? Prob accepter H1 alors que H0 est vraie
- ? Prob accepter H0 alors que H1 est vraie
Rappel H0 p1 p0 H1 p1 ltgt p0
40Calcul de p
- p prob d'observer une différence au moins
aussi importante que ce que l'on a observé alors
que H0 est vraie - soit z p1 - p0 la différence entre les 2 prop.
p1 et p0 - si H0 est vraie, z suit une loi normale (si n
grand) - moyenne 0 (H0)
- écart type
- Principe du test calculer la probabilité
d'observer dans ce cas une différence au moins
aussi grande que celle qui a été effectivement
observée (par exemple 7 - 13 -6)
41Distribution de Z sous l'hypothèses nulle
f(x)
p surface sous la courbe Pr(Z ? -6)
z
0
-6
z observé
42- p quantifie le degré de désaccord entre
l'hypothèse nulle et ce qui a été observé
43Rejet de l'hypothèse nulle H0
- Autre façon de réaliser un test
- But du test
- rejeter H0 ( p1 - p0 0 )
- pour accepter H1 ( p1 - p0 ? 0 )
- rejeter H0 ? conclusion diff. significative
- ne pas rejeter H0 ? conclusion diff. non
significative - sans évaluation précise du p
44- Limites de rejet
- valeurs de décision pour le rejet de H0
- valeurs de différences observées
- notées L (et -L)
L
-L
0
Diff observée
PAS de rejet de H0
Rejet
Rejet
45- L est déterminé par le seuil ? choisi (5)
- par définition ? Prob conclure si H0
- Prob diff. observée lt-L ou gtL si H0 ?
- L défini les différences qui ont une probabilité
faible d'être observées sous l'hypothèse nulle
2.5
2.5
Différence z
L
-L
46- L 1.96 ?
- (? écart type de la différence)
Rappel
Loi normale N(0,?)
95
x
-1.96 ?
1.96 ?
0
47- Exemple 1
- diff. observée z -5
- L 7 pour alpha5 (-L -7)
- pas de rejet de H0
- Exemple 2
- diff. observée z 12
- L 7
- rejet de H0
- conclusion diff. significative au seuil de 5
- Exemple 3
- diff. observée z -4
- L 2 (-L -2)
- rejet de H0
- conclusion diff. significative au seuil de 5
48- Possibilité de diff. significative aussi bien en
cas de - différence positive (p1 gt p0)
- différence négative (p1 lt p0)
- Test bilatéral
49Comparaison des 2 approches
- Rejet de l'hypothèse nulle
- calcul de L
- si diff. observée lt-L ou diff. observée gtL
- ? rejet de h0
- ? diff significative
- si -L lt diff observée lt L
- ? pas de rejet de H0
- ? diff non significative
- Calcul de p
- si plt0.05 ? diff. significative
- si pgt0.05 ? diff. non significative
50- L dépend de
- alpha
- p1 p0
- n1 n0
- p dépend de
- différence observée
- p1 p0
- n1 n0
Écart type de la différence (erreur standard)
Écart type de la différence (erreur standard)
51- Exemple
- Diff. Observée -5
- approche par rejet de H0
- conclusion diff. Significative
- le risque d'erreur encouru en concluant à la
différence est lt 5 - approche par calcul de p
- résultat p 0.03
- prob de cette diff. soit due uniquement au hasard
est de 0.03 - le risque d'erreur encouru en concluant à la
différence est de 3
52Résumé
- Erreur alpha
- type d'erreur statistique
- Risque alpha
- risque de commettre une erreur alpha
- Seuil de la signification statistique
- valeur de risque alpha consenti
- en général 5
- p
- quantification à partir des données observées du
risque alpha
53Erreurs d'interprétation
- p nest pas la prob. de lhypothèse nulle
- p est la prob. dobtenir le résultat observé si
H0 est vraie - p nest pas la prob. que le ttt. nait pas
deffet - p est la prob. dobtenir le résultat qui a été
observé si le ttt. est en réalité inefficace - "obtenir le résultat observé"
- obtenir une diff. au moins aussi importante que
le résultat observé - cf. définition de p
- rappel avec une VA continue, la prob d'une
valeur est nulle
54- plt0.05 ne signifie pas quil y a moins de 5 de
chance que le ttt. soit sans effet - plt0.05 ne signifie pas quil y a 95 de chance
que le ttt. est un effet - il y a moins de 5 de chance dobserver le
résultat obtenu si le ttt. est sans effet - p nest pas Pr(H0) ou 1-Pr(H1)
55Bilatéral / unilatéral
0
traitement A gt traitement B
traitement A lt traitement B
Valeur de la différence
Test bilatéral
Différence non significative
Diff. significative
Diff. significative
Test unilatéral
Différence non significative
Diff. significative
56(No Transcript)
57Conséquences
- Un résultat NS en bilatéral peut être
significatif en unilatéral - pas de choix a posteriori
58Répétitions des tests statistiques
59Répétition des tests
- Plusieurs tests réalisés pour répondre à une même
question - par exemple plusieurs critère de jugement
- Conclusion à un effet à partir du moment où il
existe au moins un test significatif - Le risque a de la conclusion est bien supérieure
à 5 - Inflation du risque alpha
- Rappel, avec un ttt. sans effet,
- sur 100 tests, il y en aura 5 significatifs (en
moyenne)
60Contrôle parfait du risque alpha (5)
Conclusion
1 test
(seuil de 5)
Le risque de conclure à tort est gt à 5
Conclusion
A partir du moment où au moins 1 test est
significatif
61Comparaisons multiples
Aux dés, la probabilité d obtenir un six est
plus forte avec 3 dés qu avec un seul
Globalement, le risque de conclure à tort à une
différence lors de ces 4 comparaisons est bien
plus important que 5.
62Comparaisons multiples
- Avec un traitement sans efficacité
- en faisant 10 tests statistiques (p.e. 10 essais)
- nous avons 40 de risque de faire au moins une
conclusion (à tort)
63Critères de jugement
- Aspirine pour la prévention des événements
cardiovasculaires - Critères de jugement
- mortalité totale
- Événements cardiovasculaires mortels ou non
mortels - DC cardiovasculaires
- Mort subite
- Infarctus
- Accident vasculaire cérébraux
- Interventions de revascularisation
- Risque alpha de conclure à tort à l'efficacité ?
64Critère de jugement principal
- Critère principal
- Décès de toute cause
- Critères secondaires
- Décès cardiovasculaire
- Mort subite
- Infarctus
- Accident vasculaire cérébraux
- Chirurgie
- Décès de toute cause
- Décès cardiovasculaire
- Mort subite
- Infarctus
- Accident vasculaire cérébraux
- Chirurgie
65Critère principal
- Conclusion que si le critère principal est
significatif - Critères secondaires explicatifs
66Multiplicité des critères de jugement - Exemple
In women, however (Table 2), a positive effect on
BMD was observed at several sites (mostly
trabecular bone zones), namely the femoral neck
and the Wards triangle in the 6069 y group, and
upper and total radius in the 7079 y group.
67Autres situations de répétition des tests
- mesures répétées au cours du temps
68Analyse en sous-groupes - Essai non concluant
Essai 0.92 NS 1 Agelt75 0.92 NS 2 Agegt75 0.95 NS
3 Hommes 0.92 NS 4 Femmes 0.99 NS 5 Antécédents
d'infarctus 0.87 NS 6 Pas d'antécédents
d'infarctus 1.03 NS 7 Prise d'aspirine 0.78 plt0.0
5 8 Pas d'aspirine 1.09 NS
69Limites- Multiplicité des tests
1 Agelt75 test 1 risque erreur 5 2 Agegt75 test
2 risque erreur 5 3 Hommes test 3 risque
erreur 5 4 Femmes test 4 risque erreur
5 5 Antécédents d'infarctus test 5 risque
erreur 5 6 Pas d'ATCD d'infarctus test 6 risque
erreur 5 7 Prise d'aspirine test 7 risque
erreur 5 8 Pas d'aspirine test 8 risque erreur
5
70Analyses en sous groupes - Essai concluant
Essai 0.78 plt0.05 1 Agelt75 0.65 plt0.01 2 Agegt75
0.90 NS 3 Hommes 0.76 plt0.05 4 Femmes 0.78 plt0.05
5 Antécédent d'infarctus 0.97 NS 6 Pas
d'antécédent d'infarctus 0.70 plt0.01 7 Diabétique
0.50 plt0.001 8 Non diabétique 0.91 plt0.05
71(No Transcript)
72Analyses intermédiaires
- en cours dessai, avant que tous les patients
prévus aient été recrutés - et/ou avant la fin de la période de suivi
initialement prévue - But arrêter prématurément
- pour efficacité
- pour toxicité
- pour futilité
73Ajustement du seuil de signification
- Méthode de Bonferroni
- Pour k comparaisons, le seuil ajusté est
- Pour k3, saj 5 / 3 1.67
- Quand ? est petit,
- Donc pour conserver un risque alpha global de
5 - Inconvénient fait lhypothèse dune stricte
indépendance des variables testées ? méthode
conservatrice
74Ajustement du seuil de signification - 2
- Méthode de Tukey
- Pour k3, saj 5 / 1.73 2.89
75Cas 1
- 3 analyses intermédiaires 1 analyse finale 4
comparaisons - Arrêt prématuré de lessai
76Cas 2
- Pas darrêt prématuré mais conclusion à
lefficacité
77Cas 3
- Pas darrêt prématuré et résultat non
significatif (p4gtsaj)
78Cas 4
- Résultat non significatif
79- Conclusion essai 1
- pas de démonstration de l'efficacité
- Conclusion essai 2
- démonstration de l'efficacité de manière
statistiquement significative (plt0.05) - sur les 3 premiers critères de jugement
80Catalogue des tests statistiques
81Taille de léchantillon
- Avec les échantillons de grandes tailles
- les distributions des
- moyennes
- proportions
- différence de moyenne
- différence de proportions
- sont des distributions normales
- --gt calcul simple de p et des IC
- Avec les échantillons de petites tailles (nlt30)
- ces distributions ne sont pas normales (en
général) - (en général inconnues)
- techniques spéciales dites "non paramétriques"
82- Variable continue
- Données distribution normale
- moyenne distribution normale qq soit n
- Données distribution quelconque symétrique
- moyenne distribution normale qq ngt30
- Données distribution quelconque
- moyenne distribution normale qq ngt100
- Variable binaire
- proportion distribution normale qd ngt30
83Séries statistiques appariées
- 2 séries statistiques provenant de l'observation
des mêmes sujets (unités statistiques) - 2 méthodes de dosage de la glycémie A et B
- les 2 méthodes sont appliquées aux mêmes sujets
- pour chaque patient 2 valeurs, une avec chaque
méthode - 2 séries appariées
- 2 groupes de patients différents
- méthode A utilisée avec le 1er grp
- méthode B utilisée avec le 2e grp
- 2 séries non appariées
84Catalogue des tests statistiques
- Le test utilisé doit être précisé avec le
résultat - Un test pour chaque situation définie par
- type de la variable (continue, binaire)
- petit ou grand effectif
- séries appariées ou non
85- Var. continues (comparaison des moyennes)
- Séries non appariées
- grand effectif
- test t (test de Student), Test z
- test non paramétrique
- Test de Wilcoxon (Mann-Whitney)
- Séries appariées
- grand effectif
- test t pour séries appariées (Student pour séries
appariées) - test non paramétrique
- Test de Wilcoxon pour séries appariées
86- Var. binaires (comparaison des proportions)
- Séries non appariées
- grand effectif
- Chi 2 ( )
- test non paramétrique
- Test exact de Fisher
- Séries appariées
- test de McNemar
- Var. qualitative à plusieurs modalités
- idem var. binaires