Solution d'analyse de données

Arbre de classification (CHAID) dans Excel

20/10/2017

Jeu de données pour créer un arbre de classification (CHAID) et but de ce tutoriel

Un classeur Excel comprenant à la fois les données utilisées dans cet exemple et les résultats obtenus peut être téléchargé en cliquant sur le bouton ci-dessous :
Télécharger les données

Les données proviennent de [Fisher M. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7, pp 179 -188] et correspondent à 150 fleurs d'Iris, décrites par 4 variables quantitatives (longeur des sépales, largeur des sépales, longueur des pétales, largeur des pétales), et par leur espèce. Trois espèces font partie de cette étude : setosa, versicolor et virginica.

Notre but est de vérifier si les quatre variables descriptives permettent de prédire efficacement à quelle espèce appartient une fleur, et si tel est le cas, d'identifier les règles qui permettent de déterminer l'espèce d'une fleur connaissant la valeur des 4 variables descriptives.

iris_setosa.jpgiris_versicolor.jpgiris_virginica.jpg

Iris setosa, versicolor et virginica.

Paramétrer l'arbre de classification (CHAID)

Une fois XLSTAT lancé, choisissez la commande XLSTAT / Machine Learning / Arbres de classification et régression.
XLSTAT Fonction Arbres de classification et de régression

Une fois le bouton cliqué, la boîte de dialogue apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel.

On sélectionne la variable dépendante, qui est dans ce cas précis, l'"espèce d'Iris", est une variable qualitative.

Les variables explicatives sont les quatre variables descriptives dont on dispose.

L'option Libellés des variables est laissée activée car la première ligne des colonnes sélectionnées comprend le nom des variables.

Nous choisissons la méthode CHAID pour créer l'arbre, et nous précisons que nous ne voulons pas que la profondeur de l'arbre dépasse 3.

Comment générer un arbre de classification (CHAID)

Les options permettent d'ajuster plusieurs paramètres ayant une incidence sur la construction des arbres. Les options par défaut ont été utilisées dans cet exemple.

Comment générer un arbre de classification (CHAID)

En ce qui concerne les graphiques, nous choisissons d'afficher d'abord l'arbre en utilisant des diagrammes en bâtons pour représenter les fréquence des espèces au niveau de chaque ud de l'arbre.

Les résultats présentés ci-dessous utilisent aussi la représentation des uds avec des diagrammes circulaires.

Comment générer un arbre de classification (CHAID)

Une fois que vous avez cliqué sur le bouton OK, les calculs commencent et les résultats sont affichés.

Interpréter les résultats d'un arbre de classification (CHAID)

Après les statistiques descriptives concernant les différentes variables, XLSTAT affiche les premières informations concernant la structure de l'arbre. Ce tableau permet de voir la p-value des tests calculés pour les différents uds, le nombre d'objets au niveau de chaque ud, le % correspondant, les uds parent et fils, la variable de séparation, la ou les valeurs correspondantes (des intervalles pour les variables quantitatives explicatives), et la pureté qui mesure le % d'objets se trouvant dans la classe (ou modalité) dominante au niveau du ud.

Sorties: Structure de l'arbre

Une partie de l'arbre de classification généré est affiché en-dessous.

Sorties :Arbre de classification CHAID

Ce diagramme permet de visualiser les étapes successives au cours desquelles l'algorithme CHAID identifie les variables qui permettent de séparer au mieux les différentes catégories de la variable dépendante. Ainsi, on voit qu'en se basant uniquement sur la longueur des pétales, l'algorithme a créé une règle qui permet de séparer les iris setosa des autres : si "Long. Pét." est comprise entre 10 et 24.5 alors l'iris appartient à l'espèce setosa.

Les différentes informations fournies au niveau de chaque ud sont détaillées ci-dessous.

tree51f.gif

L'algorithme s'arrête lorsque plus aucune règle ne peut être trouvée, ou lorsque l'une des limites fixée par l'utilisateur est atteinte (nombre d'objets au niveau du ud parent ou fils, profondeur de l'arbre, p-value limite pour retenir une variable de séparation).

Une visualisation alternative est proposée par XLSTAT. Au lieu de représenter les distributions au niveau de chaque ud avec des diagrammes en bâtons, XLSTAT permet aussi de les représenter avec des diagrammes circulaires, qui s'avèrent plus lisibles lorsqu'il y a de nombreux uds et plus de 4 ou 5 modalités pour la variable dépendante. Le disque intérieur permet de visualiser la distribution des différentes modalités (ou intervalles) au niveau de ce nœud. L’anneau extérieur correspond à la distribution de ces mêmes modalités au niveau du nœud parent.

Sorties :Arbre de classification CHAID avec des diagrammes circulairesLe tableau suivant présente une lecture de l'arbre sous forme de règles en language naturel. Pour chaque ud, la règle correspondant à la chaque modalité de la variable dépendante est affichée. Le % correspondant à la modalité au niveau du ud étant lui donné par la pureté. L'effectif de la modalité concernée par la règle est affiché dans la colonne "Effectif".

Sorties: Tableau de règles

Ainsi voit que : "Si Long. Pét. est dans l'intervalle [10; 24,5[  alors l'Espèce est Setosa dans 100% des cas" cette règle étant vérifiée pour 50 fleurs.

Les règles correspondant aux feuilles de l’arbre (les uds terminaux) permettent de calculer les prédictions pour chacune des observations, avec une probabilité dépendant de la distribution des modalités au niveau de chacune des feuilles. Ces résultats sont affichés dans le tableau des "résultats par objet".
Sorties :Résultats par objet

Trois observations ont été mal classées. Ce résultat est quasiment identique à celui obtenu avec l'analyse discriminante pour laquelle les observations 5, 9 et 12 sont mal-classées.

La matrice de confusion résume l'information concernant les reclassements d'observations, et on peut en déduire les taux de bon et mauvais classement. Le "% correct" correspond au rapport du nombre d'observations bien classées, sur le nombre total d'observations.

Sorties :Matrice de confusion pour l'échantillon d'apprentissage

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283