Cartes auto-organisatrices (Kohonen) dans Excel
Ce tutoriel explique comment configurer et interpréter une carte auto-organisatrice (ou carte de Kohonen) à l'aide d'XLSTAT-R.
Les cartes auto-organisatrices : une méthode d'apprentissage automatique non supervisée
Les cartes auto-organisatrices proviennent d'une méthode d'apprentissage non-supervisée développée par Kohonen dans les années 1980. Elles permettent de réduire la dimensionnalité des données multi-variées à des espaces de faible dimension, généralement 2 dimensions. Les observations sont rassemblées dans des nœuds d'observations similaires. Les nœuds sont ensuite répartis sur une carte bidimensionnelle où les nœuds similaires sont regroupés les uns à côté des autres. Chaque nœud contient des informations sur le nombre d'observations qu'il transporte et sur les valeurs représentatives des différentes variables d'entrée de ces observations. Ces valeurs peuvent être observées sous forme de cartes thermiques, avec une carte thermique par variable. L'observation des cartes thermiques dévoile parfois des motifs de grappes dans les noeuds. La comparaison des cartes thermiques peut fournir des informations utiles sur la caractérisation des regroupements de nœuds.
La fonction Kohonen SOM développée dans XLSTAT-R appelle la fonction som du package Kohonen dans R (Ron Wehrens et Johannes Kruisselbrink).
Jeu de données pour réaliser une analyse SOM avec XLSTAT-R
Les données correspondent à des caractéristiques chimiques (quantités de composés et variables spectroscopiques) mesurées sur 177 échantillons de vin provenant de la région du Piémont en Italie [M. Forina, C. Armanino, M. Castino and M. Ubigli. Vitis, 25:189-201 (1986)]. Les données sont disponibles sur le site de l' UCI Machine Learning Repository [Lichman, M. (2013). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science.]
Notre but est d'obtenir rapidement un aperçu des données à l'aide de cartes auto-organisatrices.
Paramétrer une analyse SOM dans XLSTAT-R
Aller dans XLSTAT-R / kohonen / Kohonen SOM(som) Dans l'onglet Général sélectionnez vos données sous le champs Données.
Dans l'onglet Options, cochez Standardiser les données pour éviter d'avoir des influences de variables plus fortes avec d'importantes variances. Réglez les périodes de présentation à 100. Cela correspond au nombre d'itérations que l'algorithme SOM effectuera. Les dimensions de la grille représentent le nombre de nœuds à représenter sur l'axe X (xdim) et l'axe Y (ydim) de la carte auto-organisatrice. Notez que le nombre de nœuds (xdim*ydim) doit toujours être inférieur au nombre d'observations dans les données. Sélectionnez une topologie hexagonale. Cette topologie implique que 6 nœuds seront présents dans le voisinage direct de chaque nœud. Avec la topologie rectangulaire, ce nombre est réduit à 4.
Interpréter une carte auto-organisatrice
Tout d'abord, le tableau Classification results montre chaque observation et le nœud (classe) auquel elle appartient.
Le graphique Training Progress montre si l'algorithme SOM s'est stabilisé lors des itérations. Si la ligne continue de diminuer à l'extrémité droite du graphique, la fonction Kohonen doit être relancée avec un nombre plus élevé de périodes de présentations.
Le Codes plot affiche les valeurs normalisées de chaque variable à l'intérieur de chaque nœud sous forme de diagrammes en éventail. La lisibilité de ce graphe est un peu complexe dans notre cas car il y a beaucoup de variables.
Le Counts plot affiche le nombre approximatif d'observations contenues dans chaque nœud. Habituellement, nous cherchons à obtenir le Count plot le plus homogène possible.
Enfin, le graphique des cartes thermiques (ou variables d’influence) permet de visualiser les valeurs normalisées de chaque variable dans chaque nœud de la carte. Ici, nous voyons un amas de nœuds dans le coin supérieur gauche avec un faible taux d'alcool et de proline mais une forte alcalinité des cendres (ash.alkalinity). Les regroupements de nœuds en bas à droite sont caractérisés par un important rapport OD280/OD315 et une faible concentration de phénols non-flavanoïdes (non.flav..phenol).
Veuillez noter que les dimensions globales du graphique peuvent être personnalisées dans le fichier XML de XLSTAT-R pour la fonction Kohonen. Le fichier est généralement stocké à cette adresse : %AppData%\ADDINSOFT\XLSTAT\XLSTAT-R\groups\kohonen. Ouvrez le fichier à l'aide d'un éditeur de code (par exemple Notepad++). Localisez la ligne de code qui génère le graphique et modifiez les arguments rplotwidth et rplotheight. Exemple: <Result text="Variables influence plot" chartname="properties" charttype="r" rplotformat="emf" rplotwidth="10" rplotheight="10"… Sauvegardez le fichier XML. Allez dans XLSTAT, ouvrez le menu XLSTAT-R, cliquez sur Rafraîchir et relancez l'analyse pour obtenir le graphique avec les nouvelles dimensions.
Cet article vous a t-il été utile ?
- Oui
- Non