Title: Lecture darticle' Evaluation diagnostique
1Lecture darticle. Evaluation diagnostique
2Questions générales
- Objectifs
- Identifier le type darticle
- Critiquer la méthodologie
- Critiquer la présentation des résultats
- Critiquer les résultats et la discussion
- Évaluer les applications cliniques
- Critiquer la forme de larticle
- Cf autres cours généraux
- Points détaillés spécifiques à lévaluation
diagnostique
3 Le type d'étude
- Etudes comparatives ou non,
- Etalon or
- Séries appariées/Séries non appariées
- Etudes longitudinales
- Réalisées chez l'être humain / in vivo.
- Règles éthiques et juridiques
4Analyse dun article diagnostique
- La méthodologie de l'étude Le protocole d'étude
permet de répondre à la question posée - Quel protocole pour quel objectif dans une étude
diagnostique? - Vérifier que le protocole choisi correspond à
lobjectif de létude - Comparaison à un étalon or (gold standard GS)
- séries appariées Le même sujet bénéfice de
létalon or et du test à évaluer. Attention au
biais que peut procurer lentrainement exemple
exploration fonctionnelle - Efficacité, utilités
- Séries non appariées les sujets sont répartis
aléatoirement en 2 ou n groupes. Attention à la
qualité de la randomisation et si possible
travailler en aveugle - ETUDE CAS/TEMOINS
5Analyse dun article diagnostique
- La méthode de sélection des patients est-elle
décrite ? - Les caractéristiques des patients recrutés pour
l'étude, les critères dinclusion et dexclusion
sont déterminants pour pouvoir juger la validité
externe de l'étude, c'est-à-dire la capacité
d'utilisation des résultats en pratique
quotidienne auprès d'une population peu
sélectionnée. - Cest eux qui permettent de répondre à la
question Puis je utiliser ces résultats dans ma
pratique - Cf Biais de sélection (constitution des groupes)
- Attention si il y a comparaison de deux tests
dans plusieurs groupes différents au biais que
peut entraîner un stade différent de la maladie
dans les groupes
6La population étudiée
- Définition claire de la population cible
- Définition des critères dinclusion/exclusion
- Définition de la population réellement étudiée
- La population étudiée est elle représentative de
la population cible ? - La population étudiée est elle représentative de
la population de ma pratique ? - Modalité de la répartition entre les groupes ou
qualité de lappariement si le sujet nest pas
son propre témoins - Effet de censure
- gt Biais de sélection
7Analyse dun article diagnostique
- Les caractéristiques diagnostiques du test
sont-elles calculées ou calculables ?
Sensibilité se a/(ac) test chez les
malades Spécificité sp d/(bd) test chez
les non malades Efficacité diagnostique
(ad)/(abcd) Indice de Youden se sp
-1 Rapport de vraisemblance positif L se /
(1-sp) L fois plus de chance davoir la maladie
quand le test est positif Rapport de
vraisemblance négatif l (1-se)/sp Si
(ac)/(bd) fréquence de la maladie VPP
a/(ab) VPN d/(cd) Courbe de ROC
détermination de la valeur seuil, aire sous la
courbe (AROC)
Avec un intervalle de confiance
8Analyse dun article diagnostique
- Le test étudié est-il comparé à un test de
référence fiable et validé, déterminé a priori ? - Lévaluation de la validité dun test se fait par
comparaison avec un test diagnostique de
référence reconnu par tous. - Oui mais si ce gold standard nétait quen
plaqué. - Sil ny a pas de test de référence cela
nécessite de définir le diagnostic recherché avec
un faisceau d'arguments dont la validité doit
avoir été évaluée.
9Exemple
- Conséquences dun gold standard (GS) pas si en
or que cela - Dans la réalité,
- la prévalence de la maladie est de 0,10 (10)
- Le gold standard nest pas parfait Il a une
sensibilité de 0, 95 (95) et une spécificité de
0,90 (90) - Le nouveau test a une sensibilité de 0,98 (98)
et une spécificité de 0,95 (95)
10Suite
- Dans la pratique, la prévalence nest pas connue
et lon considère comme malade tous ceux qui ont
un gold standard positif. - Le Gold standard fait croire que sur les 100 000
personnes il y a 18 500 malades 9500 (vrais
malades) 9000 (non réellement malades), parmi
lesquels le nouveaux test donne - 9500 0,98 ( 9310 ) 9000 0,05 ( 450)
9760 Tests positifs - 9500 0,02 ( 190) 9000 0,95 ( 8550) 8740
Tests négatifs - Le Gold standard fait croire sur les 100 000
personnes quil y 81000 (vrais non malade) 500
(faux non malade) 81 500 non malades parmi
lesquels le nouveaux test donne - 81000 0,02 (4050) 500 0,98 (490) 4540
Tests positifs - 81000 0,95 (76950) 500 0,02 ( 10) 76960
Tests négatifs
11Suite
- Au total le nouveau test apparaît avec les
caractéristiques suivantes
Sensibilité 0,52 (52) Spécificité 0,94 (94)
Attention tout ce qui est jaune et qui brille
nest pas de lor le nouveau test pourrait
apparaître comme moins performant quun autre
vis-à-vis ce GS alors que ce serait linverse.
12Analyse dun article diagnostique
- Le terme normal est-il défini ?
- La maladie doit être clairement définie par le
test de référence et par opposition la normalité
médicale. (cf biais de caractérisation) - L'attribution d'un diagnostic est elle effectuée
à partir d'un seuil à déterminer (c'est le cas
pour la valeur de marqueurs) au-delà duquel la
maladie est présente avec une probabilité connue
et acceptée ? (cf Courbe de ROC)
13Courbe de ROC
P(T / M-) Faux positifs 1- P(T-/M-) 1-
Spécificité
Nombre de sujets
Sujets diabétiques
Sujets non diabétiques
1 g/l
2,1 g/l
Limite L de la glycémie au-delà de laquelle on
dit le test positif
P(T- / M) Faux négatif 1- P(T/M) 1-
Sensibilité
14Courbe de ROC
- Pour chaque valeur de la limite L du critère
quantitatif on a une valeur de la sensibilité et
de la spécificité. - On obtient ainsi 1 point de la courbe pour L
donnée. - En faisant varier la limite L on obtient dautres
points. - La courbe joignant les points est la courbe de
ROC. - Les valeurs de sensibilité et spécificité en
fonction de L peuvent être obtenues par
lobservation ou par la modélisation du phénomène
par une loi de probabilité.
Sensibilité
1-Spécificité
15Analyse dun article diagnostique
- La fréquence de la maladie dans l'échantillon
étudié correspond-elle aux données
épidémiologiques connues ? - Si la fréquence de la maladie est très différente
de celle rencontrée en pratique dans votre
population, vous ne pourrez pas utilisez les
valeurs prédictives - Exemple fréquence du paludisme en France /
Afrique
16Analyse dun article diagnostique
- Les caractéristiques diagnostiques du test
sont-elles calculées ou calculables ?
Sensibilité se a/(ac) test chez les
malades Spécificité sp d/(bd) test chez
les non malades Efficacité diagnostique
(ad)/(abcd) Indice de Youden se sp
-1 Rapport de vraisemblance positif L se /
(1-sp) L fois plus de chance davoir la maladie
quand le test est positif Rapport de
vraisemblance négatif l (1-se)/sp Si
(ac)/(bd) fréquence de la maladie VPP
a/(ab) VPN d/(cd) Courbe de ROC
détermination de la valeur seuil, aire sous la
courbe (AROC)
Avec un intervalle de confiance
17Intervalle de confiance
- Létude porte sur un échantillon. La sensibilité
(ou tout autre paramètre) obtenue sur cette
échantillon nest pas la vraie valeur, une
étude sur un autre échantillon aurait donné une
autre valeur. Toutes ces valeurs fluctuent autour
de la vraie valeur du fait du hasard. - On peut construire, autour de la sensibilité (ou
des autres indices) un intervalle de confiance à
95 cest-à-dire que 95 fois sur 100, cet
intervalle contiendra la vraie valeur. - Pour un pourcentage p,
- obtenu sur un effectif N de léchantillon (cas de
la sensibilité), - si Np et N(1-p) sont supérieur à 5
- la formule de calcul des bornes de cet
intervalle est
18Importance du rapport de vraisemblance
- Il présente trois avantages importants
- 1) il ne change pas avec la prévalence de la
maladie. Il est un bon reflet de la valeur du
test quel que soit le groupe de population auquel
celui-ci est appliqué - 2) il est utilisable pour plusieurs niveaux de
résultats dun test. Pour chaque niveau, il
procure une information différente qui permet
dinterpréter au mieux les résultats du test - L gt 10 ou l lt 0,1 Forte variation de la
probabilité avant et après le test - L entre 5 et 10 ou l entre 0,1 et 0,2 variation
importante - L lt 2 ou l gt 0,5 faible intérêt du test
- 3) il permet de calculer de manière individuelle
lintérêt de réaliser le test à partir de la
probabilité initiale de maladie du patient. - Diagramme de Fagan permet sans calcul de
déterminer la probabilité post-test à partir de
la prévalence (probabilité pré-test) et du
rapport de vraisemblance
19Source HAS
20Analyse dun article diagnostique
- Analyse des résultats Les résultats sont ils
analysées en aveugle ? (quand cest possible) - Par exemple, y a-t-il comparaison en aveugle du
test étudié et du test de référence ou lecture en
aveugle dun examen dimagerie par un radiologue
nayant pas réalisé lexamen et/ou ne connaissant
pas le diagnostic.
21Y a-t-il significativité statistique ?
- Dans le cas de la comparaison de plusieurs
méthodes, - La différence minimale attendue
- Le risque alpha
- Le risque béta (ou la puissance 1- béta)
- Sont ils précisés à priori ?
- Ou un calcul de puissance à postériori est- il
effectué
22Risque Alpha et Béta
23Attention
- Différence significative ne veut pas dire intérêt
clinique - Il faut savoir si lamplitude de la différence va
avoir un intérêt clinique. - La significativité permet simplement de décider
si cette différence est due au hasard. Dès que
les effectifs sont grands et la variabilité
modérée, il ne faut quune toute petite
différence pour quelle soit significative.
24Lapplicabilité et lutilité clinique
- Le test doit pouvoir apporter une information
utile pour la décision diagnostique et
thérapeutique du médecin. - Par ailleurs, il doit pouvoir résulter du
diagnostic ainsi réalisé et de ses conséquences
une amélioration de l'état de santé des individus
(utilité pour le patient). - Ces utilités sont recherchées par des études
complémentaires, postérieures aux études étudiant
fiabilité et validité, comparatives des deux
stratégies diagnostiques incluant ou non le test.
25Niveau de preuve et grade
- La notion de niveau de preuve scientifique doit
être formalisée. Des propositions ont été faites
par différents auteurs ( Sackett par exemple)
pour graduer la force des recommandations en
fonction de la preuve scientifique - Dans les classifications actuellement publiées,
trois notions apparaissent - 1) le niveau de preuve dune étude
- 2) lévidence scientifique après synthèse des
études disponibles - 3) le grade des recommandations produites par un
groupe dexperts à partir (entre autres) de la
littérature.
26Niveau de preuve
- Caractérise la capacité de létude à répondre à
la question posée. - Se juge,
- dune part, par la correspondance de létude au
cadre du travail (sujet, population, paramètres
de jugement pris en compte), - dautre part par les caractéristiques suivantes
- ladéquation du protocole détude à la question
posée - lexistence ou non de biais importants dans la
réalisation, et en particulier ladaptation de
lanalyse statistique aux objectifs de létude - la puissance de létude et en particulier la
taille de léchantillon.
27un fort niveau de preuve
- correspond à une étude dont
- Le protocole est adapté pour répondre au mieux à
la question posée, - La réalisation est effectuée sans biais majeur,
- Lanalyse statistique est adaptée aux objectifs,
- La puissance est suffisante
28un niveau intermédiaire
- est donné à une étude de protocole similaire,
mais présentant - Une puissance nettement insuffisante (effectif
insuffisant ou puissance a posteriori
insuffisante) et/ou des anomalies mineures
29un faible niveau de preuve
- peut être attribué aux autres types détudes.
30Source HAS
31Lévidence scientifique
- Lévidence scientifique est appréciée lors de la
synthèse des résultats de lensemble des études
sélectionnées. - La gradation de lévidence scientifique sappuie
sur - lexistence de données de la littérature pour
répondre aux questions posées - le niveau de preuve des études disponibles
- la cohérence de leurs résultats.
- Elle constitue la conclusion des tableaux de
synthèse de la littérature.
32Source HAS
33Source HAS
34Analyse darticle
- Questions à se poser
- Le test étudié est-il comparé à un test de
référence (gold standard) ? - Le test de référence est il correctement décrit ?
- Le test de référence est-il validé (qualité du
test, choix du seuil en cas de mesure
quantitative) ? - Létude est-elle correctement menée ?
- Le lieu de létude et la méthodologie
(cas/témoins, cohorte, essai randomisé, étude
médico-économique) sont-ils décrits ? - Le test de référence est-il pratiqué chez tous
les patients (malades et non malades) ? - Sinon quelle est la méthode déchantillonnage ?
- Le test de référence et le test étudié sont-ils
interprétés indépendamment ? - Les échantillons de malades et de non malades
sont-ils représentatifs de la population à la
quelle le test doit être appliquée ? - Quels sont les biais relevés ? Quels sont les
autres biais ? - Les biais identifiés ont-ils été contrôlés ?
- Les biais invalident-ils létude ?
- Les performances du test sont-elles fournies ?
- Reproductibilité
- Sensibilité, spécificité
- Rapports de vraisemblance
- Probabilité pré-test, post-test
- Quelle est la précision des indicateurs