Classification des données avec DBSCAN dans Excel

Ce tutoriel explique comment mettre en place et interpréter une classification avec la méthode DBSCAN dans Excel en utilisant le logiciel de statistiques XLSTAT.

Jeu de données pour réaliser une classification DBSCAN

Le jeu de données provient de [Fisher M. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7, pp 179 -188] et correspond à 150 fleurs d'Iris, décrites par quatre variables quantitatives (longueur des sépales, largeur des sépales, longueur des pétales, largeur des pétales), et par leur espèce.

Trois différentes espèces font partie de cette étude : setosa, versicolor et virginica. De plus, 50 échantillons de chacune des trois espèces d'Iris sont compris dans le jeu de données.

But de ce tutoriel

Le but de ce tutoriel est d’apprendre à mettre en place et interpréter une classification avec la méthode DBSCAN sur le jeu de données Iris. Nous allons tester si les quatre variables quantitatives permettent de distinguer les trois espèces avec la méthode DBSCAN.

Paramétrer la méthode DBSCAN dans XLSTAT

Une fois XLSTAT lancé, cliquez sur Machine Learning / DBSCAN comme indiqué ci-dessous :

Une fois que vous avez cliqué sur le bouton, la boîte de dialogue DBSCAN apparaît. Sélectionnez les données dans la feuille Excel.

Dans l’onglet Général, cochez la case Quantitatives et sélectionnez les colonnes qui vont permettre de classifier les données :

longueur des sépales ;
largeur des sépales ;
longueur des pétales ;
largeur des pétales.

Comme le nom de chaque variable est présent au début du fichier, assurez-vous que la case Libellés des variables est cochée.

Pour mieux se rendre compte de la classification par la méthode DBSCAN, vous pouvez cocher la case Libellés des observations et sélectionner la variable espèces.

Dans l'onglet Options, vous pouvez régler les paramètres de la méthode DBSCAN :

Epsilon : nous mettons 0.85. Si la valeur d’epsilon est trop grande, une seule classe est créée et contient toutes les observations du jeu de données. À l’inverse, si la valeur d’epsilon est trop faible toutes les observations sont considérées comme des bruits ;
Nombre minimum de points : XLSTAT permet de lancer plusieurs analyses avec un nombre minimum de points différents. Ici, on choisit de tester entre 3 et 4 minimum de points inclus.

On utilise la Matrice de distance en tant que méthode de recherche des voisins dans un rayon égale à Epsilon. Enfin, on choisit d’utiliser la Distance euclidienne.

Dans l’onglet Sorties, sélectionnez les sorties comme indiqué ci-dessous :

Vous pouvez choisir d’afficher la matrice de distance pour juger les distances entre les observations.

Les calculs démarrent lorsque vous cliquez sur OK. Les résultats sont ensuite affichés.

Interpréter les résultats d’une classification avec la méthode DBSCAN

Le premier tableau nous donne un aperçu des bruits présents dans le jeu de données ainsi que la répartition des observations par classe et selon le minimum de points. Pour 3 minimum de points, la classe 1 contient 50 observations, la classe 2 contient 100 observations et aucun bruit n’est détecté. Tandis que pour 4 minimum de points, une observation est considérée comme un bruit.

Ensuite, les résultats selon le nombre minimum de points sont affichés. Pour 3 minimum de points, un rappel du nombre de classe est affiché. Le tableau suivant nous donne la classe et le coefficient de silhouette de chaque observation. Ici, les 10 premières Iris de l’espèce setosa appartiennent à la classe 1.

Un graphique correspondant au coefficient de silhouette permet de juger visuellement l’appartenance d’une observation à une classe. Si le coefficient de silhouette est proche de 1, l’observation est jugée bien classée. À contrario, si le coefficient est proche de -1, l’observation est alors moyennement plus proche en distance d’une autre classe.

Dans notre exemple, les observations de la classe 2 ont visuellement un coefficient de silhouette plus élevé que les observations de la classe 1.

Enfin, le dernier tableau donne un aperçu des observations triées par classe et des bruits. Les 10 premières lignes et les 5 dernières lignes du tableau montrent que la méthode DBSCAN a discriminé les observations de l’espèce setosa dans la classe 1 et les observations des espèces versicolor et virginica dans la classe 2.

Les mêmes tableaux et graphiques sont ensuite affichés pour 4 minimum de points.

Conclusion sur la classification avec la méthode DBSCAN

La méthode DBSCAN a montré qu’il était possible de séparer les observations du jeu de données en deux classes malgré les trois espèces d’Iris connues. Néanmoins, la classe 1 contenait toutes les observations de l’espèce setosa et la classe 2 contenant les deux autres espèces.

La méthode DBSCAN est donc performante pour séparer l’espèce setosa des espèces versicolor et virginica mais ne permet pas de séparer les trois espèces aussi bien que d’autres méthodes de classification.

Cet article vous a t-il été utile ?