Modèles de régression sur Classes Latentes dans Excel
Modèles de régression sur Classes Latentes
Dans ce tutoriel, nous développerons des modèles de régression sur les classes latentes avec XLSTAT-LatentClass. Ce tutoriel implique :
- La selection d’une variable dépendante et de son échelle de mesure
- Le paramétrage du nombre de classes latentes (segments)
- Exploration des sorties sur les paramètres
Par ailleurs, cet exemple illustre un certain nombre d’options avancées au sein la fonctionnalité regression sur Classes Latentes du module XLSTAT-LatentClass :
- Utilisation de mesures répétées (via l’option des libellés des observations)
- Classification des individus au sein de classes latentes (segments latents)
Jeu de données pour l’estimation de modèles de régression sur Classes Latentes
Les données sont obtenues à partir d’une étude conjointe (marketing) hypothétique impliquant des mesures répétées. Les répondants ont été sondés sur leur probabilité d’achat sous différents scénarios. La figure 1 représente une partie des données.
Figure 1: En-tête des données.
Comme suggéré par la figure 1, chaque individu (400 au total) est associé à 8 entrées (une entrée par ligne), ce qui donne 3200 entrées en tout. Il s’agit d’un plan factoriel complet à trois facteurs à deux modalités chacun ; chaque combinaison de modalités représentant un scénario pour l’achat d’un produit.
Facteurs (variables prédictives) :
- Type (1 = traditionnel ; 2 = moderne)
- Qualité (1 = mauvaise ; 2 = bonne)
- Prix (1 = bas ; 2 = élevé)
La variable dépendante (score) est une note d’intention d’achat évaluée sur une échelle de 5 points (1-5).
But de ce tutoriel sur les modèles de régression sur Classes Latentes
Nous utiliserons la régression sur Classes Latentes pour identifier des classes latentes qui diffèrent au niveau des degrés d’importance de trois facteurs influençant la décision d’acheter un produit. Par exemple, on pourrait avoir une première classe au sein de laquelle seul le prix influence la décision ; une seconde classe au sein de laquelle la décision peut être influencée par la qualité et la modernité du produit, indépendamment du prix. Nous traiterons le score en tant que variable dépendante (à expliquer) ordinale. Nous génèrerons différents modèles (chaque modèle étant associé à un nombre distinct de classes) et choisirons le nombre de classes optimal.
Paramétrer un modèle de régression sur Classes Latentes avec XLSTAT-LatentClass
Aller sur **XLSTAT / XLSTAT-LatentClass / Régression sur classes latentes (Figure 2).
Figure 2 : Menu de XLSTAT-LatentClass.
Une fois le bouton cliqué, la boîte de dialogue des modèles de régression sur classes latentes avec XLSTAT-LatentClass apparaît (Figure 3).
Figure 3 : Boîte de dialogue des modèles de régression sur classes latentes (onglet Général).
Dans le champ Y / Variables dépendantes, entrer la variable score.
Pour cette variable, nous utiliserons une échelle de mesure (type de réponse) ordinale. Cette échelle prend en compte un ordre naturel parmi les 5 niveaux d’intention d’achat. Les chiffres fixes représentant les scores (1, 2, 3, 4 et 5) seront utilisés pour établir l’ordre des niveaux et mettre en place des distances homogènes entre les scores adjacents.
Les données contiennent des mesures (entrées) répétées pour chaque individu (cas). Ainsi, il faudrait assigner chaque entrée à l’individu correspondant. Ceci peut se faire en introduisant l’identifiant des individus (colonne identifiant) dans le champ libellés des observations. Toutes les entrées appartenant au même individu seront associées au même identifiant.
Les variables explicatives (prédicteurs) sont catégorielles (type, qualité, prix). Les sélectionner dans le champ Nominales après avoir coché l’option correspondante.
La régression sur classes latentes estime simultanément une régression dans chaque classe. Un modèle à 1 classe estime un modèle de régression unique. Dans cette situation, on assume qu’un même modèle de régression est valable pour tous les individus. Dans notre exemple, nous commencerons par l’estimation d’un modèle à 1 classe et l’extraction du log de vraisemblance. Puis nous estimerons des modèles successifs en incrémentant le nombre de classes par 1 et en évaluant à chaque fois si l’introduction d’une classe supplémentaire a un sens.
Nous pouvons commencer avec 4 modèles de régression (modèles à 1, 2, 3 et 4 classes).
Sous l’option Nombre de classes, tapez de 1 à 4.
Voici en somme la boîte de dialogue paramétrée :
Figure 4 : Boîte de dialogue des modèles de régression sur classes latentes (onglet Général paramétré).
Les calculs, rapides, démarrent dès que vous cliquez sur OK.
Interpréter les sorties d’un modèle de régression sur Classes Latentes avec XLSTAT-LatentClass
A la fin des calculs, XLSTAT-LatentClass produit 5 feuilles Excel : une feuille résumé (Régression sur classes latentes) suivie d’une feuille pour chacun des 4 modèles estimés.
Figure 5 : Statistiques associées aux modèles estimés
La première sortie affiche les statistiques associées à chaque modèle et qui permettront de déterminer le nombre optimal de classes : log de vraisemblance (LV), BIC et le nombre de paramètres. Il est important de déterminer le bon nombre de classes car un nombre trop faible ignore les différences interclasses et un nombre trop élevé produit un modèle instable. Alors que le log de vraisemblance augmente en fonction du nombre de classes, le BIC minimum apparaît pour le modèle à 3 classes (BIC = 8312,057), suggérant que ce modèle est le meilleur parmi les 4 modèles estimés.
Occasionnellement, il est possible de trouver une solution locale (suboptimale). Pour les données de ce tutoriel, il est possible de trouver une solution locale pour le modèle à 4 classes : LV = -4080,318 au lieu de -4075,922. Si cela se produit, veuillez ré-estimer le modèle à 4 classes.
Les p-values basées sur le V² et le nombre de degrés de liberté ne sont pas des mesures valides de l’ajustement car les données sont rares.
Examinons à présent les sorties détaillées relatives au modèle à 3 classes (feuille LCR-3 classes).
Interprétation des sorties portant sur les paramètres
Après une série de statistiques globales, les sorties portant sur les paramètres apparaissent (Figure 6) :
Figure 6 : Paramètres associés au modèle à 3 classes
Le paramètre beta associé à chaque prédicteur est une mesure de son influence sur la variable dépendante (score). L’estimation de l’effet beta issu de la colonne « Classe 1 » suggère que les individus issus de la première classe sont influencés de manière positive par les produits dont le type = 2 (moderne, beta = 0,967), de manière négative par un prix élevé (beta = -0,509) et non-influencés par une meilleure qualité (beta quasi-nul). La deuxième classe est influencée par les 3 attributs, avec une préférence pour les produits modernes (beta = 0,585), et de meilleure qualité (beta = 0,461). Mais, comme pour la classe 1, la préférence des individus de la classe 2 diminue avec le prix (beta = 0,525). Les membres de la troisième classe préfèrent les produits de meilleure qualité (beta = 1,031), mais leur préférence diminue aussi avec le prix (beta = 0,461). Par ailleurs, ils ne sont pas influencés par le type de produit.
Notez que le prix a plus ou moins la même influence sur les trois segments. La statistique de Wald(=) indique que les différences parmi les classes des effets beta associés à cet attribut ne sont pas significatives (p = 0,67, ce qui est beaucoup plus élevé que le seuil de significativité standard de 0,05). Cela signifie que les trois classes sont influencées de la même manière par le prix. Ceci se confirme si l’on estime un modèle au sein duquel ce prédicteur est paramétré de manière à ce qu’il soit « indépendant de la classe » (voir onglet Options de la boîte dialogue). La p-value associée à la statistique de Wald pour le prix est extrêmement faible. Ceci indique que le la part de sensibilité au prix est très significative.
Le type et la qualité du produit engendrent quant à eux de grandes différences inter-classes. Le type a une forte influence sur la classe 1, une influence moins forte sur la classe 2, et virtuellement aucun effet sur la classe 3. La qualité a un effet important sur la classe 3, un effet moins fort sur la classe 2, et virtuellement aucun effet sur la classe 1. Les p-values très faibles associées à Wald(=) pour le type et la qualité confirment que ces prédicteurs présentent des différences significatives entre les classes. Par exemple, pour le type, p = 6,2x10-38.
En somme, la classe 1 inclut les individus dont l’intention d’achat est orientée par le type de produit ; la classe 3 renferme ceux influencés par la qualité ; la classe 2 inclut ceux qui sont influencés par les 3 attributs.
Copyright ©2015 Statistical Innovations Inc. Tous droits réservés.
Cet article vous a t-il été utile ?
- Oui
- Non