Solution d'analyse de données

Analyse de sensibilité / spécificité dans Excel

17/11/2017

Analyse de sensibilité et de spécificité

L'analyse de sensibilité et de spécificité a d’abord été développée pendant la seconde guerre mondiale pour la mise au point de moyens efficaces de détection des avions japonais. Elle ensuite été appliquée de manière plus générale en détection du signal, puis en médecine, où elle est aujourd’hui très utilisée.

La problématique est la suivante’: on étudie un phénomène, souvent de nature binaire (par exemple, la présence ou absence d’une maladie) et on souhaite mettre au point un test permettant de détecter efficacement la survenance d’un événement précis (par exemple, la présence de la maladie).

Soit une V variable binaire ou multinomiale décrivant le phénomène pour N individus suivis. Notons par + les individus pour lesquels l’événement se produit, et par — ceux pour lesquels il ne se produit pas. Soit T un test dont le but est de détecter si l’événement se produit ou non. T peut être une variable binaire (présence/absence), qualitative (par exemple la couleur), ou quantitative (par exemple une concentration).

Une fois le test appliqué à l’ensemble des N individus, on obtient un tableau individus/variables dans lequel, pour chaque individu, est consignée la survenance ou non de l’événement, ainsi que le résultat du test.

Jeu de données pour réaliser une analyse de sensibilité et de spécificité

Une feuille Excel contenant les données et les résultats de cet exemple peut être téléchargée en cliquant ici.

Les données correspondent à une expérience médicale au cours de laquelle on a soumis 18 patients atteints par une maladie et 18 autres individus sains à un nouveau test de diagnostique, moins coûteux que celui utilisé actuellement par ailleurs très performant.

Ce test est binaire, car il est censé afficher une couleur rouge lorsque le patient est malade et aucune couleur dans le cas contraire. Les résultats sont consignés dans un tableau individus/variables. Nous allons utiliser une analyse de sensibilité et spécificité pour évaluer le test.

Paramétrer une analyse de sensibilité et de spécificité

Une fois XLSTAT lancé, choisissez la commande Analyse de survie / Sensibilité et Spécificité.

barsensf.gif

Une fois le bouton cliqué, la boîte de dialogue apparaît. Vous pouvez alors sélectionner les données correspondant aux données événement et aux données test et préciser quels codes sont associés aux cas positifs. Ici, pour les deux variables, le code est +.

sens1f.gif

Dans l'onglet Options, vous avez la possibilité de préciser la méthode à utiliser pour le calcul des intervalles de confiance.

XLSTAT est le logiciel proposant le plus grand choix. Les options par défaut sont celles les plus recommandées.

sens2f.gif

Lorsque vous cliquez sur OK, les calculs sont effectués et les résultats affichés.

Interpréter les résultats d'une analyse de sensibilité et de spécificité

Le premier tableau est un tableau de contingence (ou tableau croisé) permettant de synthétiser le tableau initial. Ce tableau comporte par construction les valeurs suivantes :

  • Vrais positifs’(VP)’: nombre d’individus déclarés positifs par le test et qui le sont effectivement.
  • Faux positifs’(FP)’: nombre d’individus déclarés positifs par le test mais qui sont en réalité négatifs.
  • Vrais négatifs (VN)’: nombre d’individus déclarés négatifs par le test et qui le sont effectivement.
  • Faux négatifs’(FN)’: nombre d’individus détectés négatifs par le test mais qui sont en réalité positifs.

sens3f.gif

A partir de ces données et de N la somme de ces quatre valeurs, on peut calculer les différents indices permettant d'évaluer la performance du test de diagnostique:

sens4f.gif

Pour faciliter l'interprétation de ces résultats, vous trouverez ci-dessus leur description :

  • Sensibilité (aussi appelée Fraction de Vrais Positifs): proportion d'individus positifs effectivement bien détectés par le test. Autrement dit, la sensibilité permet de mesurer à quel point le test est performant lorsqu’il est utilisé sur des individus positifs. Le test est parfait pour les individus positifs lorsque la sensibilité vaut 1, équivalent à un tirage au hasard lorsque la sensibilité vaut 0.5. S’il est inférieur à 0.5, le test est contre-performant et on aurait intérêt à inverser la règle pour qu’il soit supérieur à 0.5 (à condition que cela n’affecte pas la spécificité). La définition mathématique est’: Sensibilité = VP/(VP + FN).
  • Spécificité (aussi appelée Fraction de Vrais Négatifs): proportion d'individus négatifs effectivement bien détectés par le test. Autrement dit, la spécificité permet de mesurer à quel point le test est performant lorsqu’il est utilisé sur des individus négatifs. Le test est parfait pour les individus négatifs lorsque la spécificité vaut 1, équivalent à un tirage au hasard lorsque la spécificité vaut 0.5. S’il est inférieur à 0.5, le test est contre-performant et on aurait intérêt à inverser la règle pour qu’il soit supérieur à 0.5 (à condition que cela n’affecte pas la sensibilité). La définition mathématique est’: Spécificité = VN/(VN + FP).
  • Fraction de faux positifs (FFP) : proportion de négatifs détectés comme des positifs par le test (1-Spécificité).
  • Fraction de faux négatifs (FFN) : proportion de positifs détectés comme des négatifs par le test (1-Sensibilité).
  • Prévalence de l'événement : fréquence de survenance de l'événement dans l'échantillon total (VP+FN)/N.
  • Valeur Prédictive Positive : proportion de cas effectivement positifs parmi les positifs détectés par le test. On a VPP = VP/(VP+FP), ou VPP=Sensibilité x Prévalence / [(Sensibilité x Prévalence + (1-Spécificité)(1- Prévalence)]. C’est une valeur fondamentale qui a la particularité de dépendre aussi de la prévalence, une donnée indépendante de la qualité du test
  • Valeur Prédictive Négative : proportion de cas effectivement négatifs parmi les négatifs détectés par le test. On a VPN = VN/(VN+FN), ou VPP= Spécificité(1- Prévalence) / [Spécificité(1- Prévalence) + (1- Sensibilité)Prévalence]. Cet indice dépend aussi de la prévalence, une donnée indépendante de la qualité du test.
  • Rapport de vraisemblance positif (LR+) : ce rapport indique à quel point un individu a plus de chance d’être positif en réalité si le test est positif. On a LR+ = Sensibilité / (1-Spécificité).
  • Rapport de vraisemblance négatif (LR-) : ce rapport indique à quel point un individu a plus de chance d’être positif en réalité, si le test est négatif. Le risque relatif est nécessairement une valeur positive ou nulle. On a LR- = (1-Sensibilité) / (Spécificité).
  • Odds ratio : l'odds ratio indique à quel point un individu a plus de chance d’être positif si le test est positif, par rapport au cas où le test est négatif. Par exemple, un odds ratio de 2 signifie que la chance pour que l'événement se produise est 2 fois supérieure si le test est positif. L'odds ratio est une valeur positive ou nulle. On a Odds ratio = VPxVN /(FPxFN).
  • Risque relatif : le risque relatif est un ratio qui mesure à quel point le test se comporte mieux lorsqu'il est positif par rapport au cas où il est négatif. Par exemple, un risque relatif de 2 signifie que le test est 2 fois plus performant lorsqu’il est positif que lorsqu'il est négatif. Une valeur proche de 1 correspond à un cas d'indépendance entre les lignes et les colonnes, et à un test aussi performant quand il est positif que lorsqu'il est négatif. Le risque relatif est une valeur positive ou nulle donnée par’: Risque relatif = VP/(VP+FP) / (FN/(FN+VN)).

Les résultats du test sont assez moyens car ni la sensibilité ni la spécificité ne sont réellement satisfaisantes. Cependant, le très faible coût du test le rend intéressant. Une légère amélioration de la sensibilité et un couplage avec un autre test pourrait le rendre efficace.

Remarque : les valeurs prédictives sont ici biaisées. En effet, la prévalence de la maladie dans notre échantillon est de 50% (1 individu sur 2 est atteint), ce qui n'est pas représentatif de la population totale où la maladie touche une personne sur 2000. Pour corriger les valeurs prédictives, il suffit dans l'onglet Options d'indiquer que la prévalence est de 0.0005.

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283