Solution d'analyse de données

Courbe ROC dans Excel, tutoriel

20/10/2017

Courbe ROC

L'analyse de sensibilité et de spécificité et les courbes ROC ont d’abord été développées pendant la seconde guerre mondiale pour la mise au point de moyens efficaces de détection des avions japonais. Elles ont ensuite été appliquées de manière plus générale en détection du signal, puis en médecine, où elles sont aujourd’hui très utilisées.

La problématique est la suivante : on étudie un phénomène, souvent de nature binaire (par exemple, la présence ou absence d’une maladie) et on souhaite mettre au point un test permettant de détecter efficacement la survenance d’un événement précis (par exemple, la présence de la maladie).

Si le test est de nature quantitative (éventuellement ordinale), par exemple une concentration en une molécule, on va chercher à déterminer à partir de quelle concentration on peut considérer l'individu comme malade. Les courbes ROC et les indices calculés dans le cadre de cette méthode aident à prendre la bonne décision.

Jeu de données pour créer une courbe ROC et identifier la bonne valeur seuil pour une méthode de détection

Une feuille Excel contenant les données et les résultats de cet exemple peut être téléchargée en cliquant ici.

Les données correspondent à une expérience médicale au cours de laquelle on a soumis 50 individus, parmi lesquels 20 sont malades, à un test dépistage consistant à mesurer la concentration d'une molécule virale.

Paramétrer le génération d'une courbe ROC pour identifier la bonne valeur seuil pour une méthode de détection

Une fois XLSTAT lancé, choisissez la commande Analyse de survie / Courbes ROC.

barrocf.gif

Une fois le bouton cliqué, la boîte de dialogue apparaît.

Vous pouvez alors sélectionner les données correspondant aux données événement et préciser quel code est associé aux événements positifs.

Sélectionnez ensuite les données correspondant au diagnostique et préciser quelle type de règle doit être utilisée pour identifier la valeur seuil au-delà ou en-deçà de laquelle le test doit être considéré positif.

Nous choisissons ici de considérer que le test est positif si la concentration est supérieure ou égale à une valeur à déterminer.

roc1f.gif

Dans l'onglet Options, vous avez la possibilité de préciser la méthode à utiliser pour le calcul des intervalles de confiance.

XLSTAT est le logiciel proposant le plus grand choix. Les options par défaut sont celles le plus recommandées.

Dans cet onglet, vous avez aussi la possibilité d'affecter un coût aux différents cas. Nous souhaitons pénaliser fortement les erreurs de diagnostique et plus particulièrement le cas où des malades ne sont pas détectés.

roc2f.gif

Dans l'onglet Graphiques, nous choisissons d'afficher un graphique de décision basé sur les coûts.

roc3f.gif

Lorsque vous cliquez sur OK, les calculs sont effectués et les résultats sont affichés.

Interpréter les résultat d'une courbe ROC et identifier la bonne valeur seuil pour une méthode de détection

Le premier tableau donne les statistiques descriptives de la variable test, ici la concentration, suivi des statistiques pour la variable événement, ici la maladie. La prévalence observée est affichée et vaut ici 0.4.

roc4f.gif

La courbe ROC est ensuite affichée. A chaque petit carré correspond une observation.

roc5f.gif

La tableau "Analyse ROC" qui suit, présente pour chaque possibilité de valeur seuil, la valeur des différents indices de performance. Par exemple, si on décide de déclarer un individu malade lorsque la concentration est supérieure ou égale à 0.98, on a une sensibilité de 0.95, une spécificité de 0.733 et un coût de 61. Pour plus de détails sur les différents indices affichés, vous pouvez vous reporter au tutoriel sur l'analyse sensibilité et spécificité.

roc6f.gif

Un graphique construit à partir de ce tableau est ensuite affiché. Il permet de voir l'évolution des comptages VP (vrais positifs), VN (vrais négatifs), FP (faux positifs) et FN (faux négatifs) en fonction de la valeur seuil choisie.

roc7f.gif

Le graphique de décision permet quant à lui de choisir la valeur seuil qui minimise le coût. Pour voir à quelle valeur seuil correspond le minimum sur le graphique, il suffit de laisser la souris sur le point correspondant. Cette valeur correspond à une concentration 0.98 comme nous l'avions identifié plus haut dans le tableau d'analyse ROC.

roc8f.gif

La dernière série de résultats permet d'étudier l'aire sous la courbe ROC, appelée souvent AUC (Area Under the Curve). L'AUC et son intervalle de confiance sont calculées. Le test de comparaison à 0.5 permet de tester si le diagnostique est plus performant qu'une simple règle aléatoire. Dans notre cas, le test étant très performant, l'AUC est significativement différente de 0.5.

roc9f.gif

La comparaison des AUC est aussi un moyen de comparer différents tests de diagnostique. XLSTAT permet de comparer autant de tests que vous le souhaitez.

Nous contacter

Envoyer un email au service commercial

Contacter notre équipe de support technique : support@xlstat.com

https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283