Solution d'analyse de données

Classification KNN ou K plus proches voisins dans Excel

20/10/2017

Jeu de données pour la classification par les K plus proches voisins avec XLSTAT

Une feuille Excel contenant à la fois les données et les résultats peut être téléchargée en cliquant ici.

Ces données constituent un sous-ensemble du jeu de données proposées par Dr. William H. Wolberg (University of Wisconsin Hospitals, Madison). Chaque observation correspond à des caractéristiques de cellules issues d’une biopsie mammaire (colonnes C-K) mesurées sur des patientes souffrant de cancer du sein classé bénin ou malin. Le jeu de données complet peut être téléchargé ici :

https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Original%29

But de ce tutoriel sur la classification par les K plus proches voisins avec XLSTAT

Le but de ce tutoriel est d’utiliser la classification par les K plus proches voisins (KNN) pour classer des cancers en bénin ou malin. Nous utiliserons les 100 premières observations en tant qu’échantillon d’apprentissage et les 20 dernières en tant qu’échantillon de prédiction. Ainsi, la classe de cancer a été supprimée pour les 20 dernières observations.

La classification par les K plus proches voisins sera faite en se basant les variables explicatives d’apprentissage suivantes :

  1. Épaisseur de la masse  prélevée 
  2. Uniformité de la taille  des  cellules
  3. Uniformité de la forme des cellules
  4. Adhésion Marginale (cohésion des cellules au sein du tissu)
  5. Taille d’une cellule épithéliale
  6. Nucléole nu (Nucléole dépourvu de cytoplasme)
  7. Uniformité de la chromatine
  8. Nucléole normale
  9. Mitoses

Ces variables ont des notes comprises entre 1 et 10

 

Paramétrer une classification par les K plus proches voisins avec XLSTAT

Une fois XLSTAT lancé, choisissez la commande XLSTAT / Machine Learning / K plus proches voisins.

La boîte de dialogue sur la classification par les K plus proches voisins apparaît :

knn general

Sélectionner les classes de l’échantillon d’apprentissage dans le champ Y / Variables qualitatives. Sélectionner les variables explicatives associées à l’échantillon d’apprentissage au sein du champ X / Variables explicatives / Quantitatives. Dans le champ Echantillon de prédiction, sélectionner les données relatives aux 20 observations tout en bas du jeu de données. Paramétrer le Nombre de voisins à 3.

Dans l’onglet Options, il est possible de paramétrer l’algorithme. Par exemple, il est possible de choisir le type de fonction (Métrique ou Noyaux) à utiliser pour calculer les distances.

knn options

Une fois que vous avez cliqué sur le bouton OK, les calculs commencent puis les résultats sont affichés.

Interpréter les résultats de la classification par les K plus proches voisins avec XLSTAT

Le premier tableau renseigne les effectifs et pourcentages relatives aux deux catégories (bénin / malin) de la variable dépendante au sein de l’échantillon d’apprentissage.

Le deuxième tableau affiche des statistiques relatives aux variables explicatives de l’échantillon d’apprentissage, et le troisième à l’échantillon de prédiction.

knn results 1

 

L’erreur de prédiction estimée par validation croisée est de 0.04.

 

knn results 2

 

Les classes prédites pour l’échantillon de prédiction sont affichées d’abord par classe…

knn results 3

Puis par observation :

knn results 4

Pour chaque observation suivie, la classe des voisins participant au vote ainsi que les distances séparant les voisins de  l’observation suivie sont résumées dans un tableau. Ci-dessous les tableaux contenant les informations de suivi pour les quatre premières observations :

knn results 5

 

 

Nous contacter

Envoyer un email au service commercial

Contacter notre équipe de support technique : support@xlstat.com

https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283