Wahl der geeigneten Clustering-Methode
But de ce tutoriel
L’objectif de ce tutoriel est de guider l’utilisateur d’XLSTAT à choisir un outil de classification approprié pour ses données.
Méthodes de classification : définition
Les méthodes de classification, aussi appelées de partition des données, permettent de grouper des objets (observations ou individus) dans des classes (clusters) de manière à ce que les objets appartenant à la même classe sont plus similaires entre eux qu’aux objets appartenant aux autres classes. Le calcul de la proximité entre objets se fait sur une série de variables mesurées sur tous les objets. Les méthodes de classification sont très utilisées dans le data mining. Quelques exemples :
Dans le cadre des données d’expression (transcriptomique, protéomique, métabolomique, etc.), ces méthodes permettent de détecter des individus ou des variables (protéines, ARN, métabolites) ayant des profils d’expression homogènes.
Dans le marketing, ces méthodes permettent de détecter différents profils de consommateurs à partir de sondages.
En écologie, les méthodes de classification permettent d’identifier des groupes de sites homogènes en termes de communautés.
Méthodes de classification disponibles dans XLSTAT
XLSTAT propose quatre différentes méthodes de classification au sein du bouton Analyse de données :
Classification par les nuées dynamiques (k-means clustering)
Classification ascendante hiérarchique (CAH)
Et une méthode au sein du module XLSTAT-LG :
Modèle de classification par les classes latentes
Ces méthodes ne fonctionnent que sur des données quantitatives (excepté les modèles de classification par les classes latentes). Cependant, des données binaires peuvent être utilisées dans le cadre de CAH. Pour classifier des objets caractérisés par des variables qualitatives, nous recommandons d’effectuer une Analyse des Correspondances Multiples en premier lieu et d’utiliser les scores des observations sur les premiers axes (facteurs) en guise de jeu de données pour une classification.
Dans le même esprit, il est possible d’effectuer des classifications sur les scores des observations fournis par n’importe quelle analyse exploratoire, notamment l’Analyse en Composantes Principales et l’Analyse Factorielle des Correspondances.
Quelle méthode de classification choisir ?
Chaque méthode présente des particularités résumées dans le tableau ci-dessous.
CAH | Nuées dynamiques (k-means) | Mélanges gaussiens | Partitionnement univarié | Modèle de classification par les classes latentes | |
---|---|---|---|---|---|
Nombre de variables | 1 au moins | 1 au moins | 1 au moins | 1 au plus | 1 au moins |
Type de variable en entrée | Quantitative continue | Quantitative continue | Quantitative continue | Quantitative continue | Quantitative continue, quantitative ordinale, nominale |
Faut-il indiquer le nombre de classes avant le calcul? | Optionnel | Obligatoire | Obligatoire | Obligatoire | Obligatoire (mais le nombre optimal de classes peut être déterminé par le modèle) |
Résultats: appartenance aux classes* | Déterministe | Déterministe | Probabiliste | Déterministe | Probabiliste |
Résultats: particularités | Dendrogramme, graphique du profil des classes | Graphique du profil des classes | Estimations des paramètres des classes, graphique du modèle de mélange, graphique de classification MAP | - | Contribution de chaque variable à chaque classe, équation de scoring permettant de prédire les classes de nouvelles observations |
*Une fois le calcul abouti, l’appartenance de chaque observation à une classe est fournie sous différentes formes qui dépendent de la méthode de classification choisie. La forme déterministe implique l’affiliation de chaque objet à une classe unique alors que la forme probabiliste affiche la probabilité d’appartenance de chaque objet à chacune des classes.
Aller plus loin
Les jeux de données très volumineux peuvent être partitionnés en combinant différentes méthodes. Par exemple, des classes obtenues par la méthode des nuées dynamiques dans un premier temps peuvent elles-mêmes être utilisées en tant qu’observations au sein d’une classification ascendante hiérarchique. Ce tutoriel vous guidera.
War dieser Artikel nützlich?
- Ja
- Nein