Solution d'analyse de données

Régression logistique multinomiale dans Excel

20/10/2017

Modèle logit multinomial

Le modèle logit multinomial consiste en une généralisation du modèle logit classique pour des variables à expliquer ayant plus de deux modalités (cette méthode peut aussi être appelée régression logistique polytomique).

Le principe de ce modèle est le suivant : on veut comprendre ou prédire l'effet d'une ou plusieurs variables sur une variable qualitative à réponses multiples. Cette variable doit être une variable catégorielle non ordonnée. L’ensemble des calculs se font relativement à une modalité de référence que l’utilisateur devra sélectionner. On pourra ainsi comprendre l’impact du choix d’une modalité en fonction des variables explicatives relativement à une modalité fixée.

Ce type de modèle s’applique par exemple dans le cas marketing au choix d’un produit plutôt que d’un autre. Le produit de référence étant modélisé par la modalité de référence et les offres alternatives par les autres modalités.

XLSTAT permet d’appliquer le modèle logit multinomial sur des données brutes.

La fenêtre associée au modèle logit multinomial est la même que celle associée à la régression logistique.

Jeu de données pour la création d'un modèle logit multinomial

Le modèle logit multinomial permet de modéliser la probabilité qu'un événement survienne étant donné les valeurs d'un ensemble de variables descriptives quantitatives et/ou qualitatives.

L'exemple que nous traitons ci-dessous correspond à un cas classique de la littérature marketing. On cherche à prédire la probabilité pour qu'un client choisisse une marque plutôt qu’une autre en fonction de deux variables explicatives : l’âge et le fait d’être une femme. La variable à expliquer a trois modalités.

Le fichier Excel comprenant à la fois les données et les résultats peut être téléchargé en cliquant ici.

Le jeu de données comporte 735 observations.

Paramétrer un modèle logit multinomial

Pour activer la boîte de dialogue du modèle logit multinomial, lancez XLSTAT, puis choisissez XLSTAT / Modélisation des données / Régression logistique, ou cliquez sur le bouton correspondant de la barre d'outils Modélisation des données (voir ci-dessous). Puis sélectionnez la régression logistique.

barlog1f.gif

Une fois que vous avez cliqué sur le bouton, la boîte de dialogue apparaît. Le modèle logit multinomial est activé en sélectionnant l’option multinomiale comme type de réponse :

logmult1f.gif

Sélectionnez les données sur la feuille Excel. Les données Réponse correspondent à la colonne dans laquelle se trouve la variable à expliquer.

Dans notre cas il y a deux variables explicatives correspondant au sexe et à l’âge.

Comme nous avons sélectionné les libellés des variables, nous devons sélectionner l'option Libellés présents.

On peut sélectionner la modalité témoin, soit la première modalité (a1=0), soit la dernière (an=0).

logmultf2f.gif

De nombreuses autres options sont disponibles dans les autres onglets de la boîte de dialogue (pour de plus amples détails, voir l’aide de XLSTAT).

Une fois que vous avez cliqué sur le bouton OK, les calculs son effectués puis les résultats affichés.

Interpréter les résultats d'un modèle logit multinomial

Le tableau suivant donne plusieurs indicateurs de la qualité du modèle (ou qualité de l'ajustement). Ces résultats sont équivalents au R2 et au tableau d'analyse de la variance de la régression linéaire et de l'Anova. La valeur la plus importante est le Chi2 associé au Log ratio (L.R.). C'est l'équivalent du test F de Fisher du modèle linéaire : on essaie d'évaluer si les variables apportent une quantité d'information significative pour expliquer la variabilité de la variable cible. Dans notre cas, comme la probabilité est inférieure à 0.0001, on peut conclure que les variables apportent une quantité significative d'information.

logmultf3f.gif

Le tableau suivant donne les premiers détails sur le modèle et est utile pour évaluer la contribution des variables à la qualité du modèle. Il est légèrement différent du cas de la régression logistique. En effet, on a des coefficients pour chaque variable mais aussi pour chaque modalité (mise à part la modalité de référence). D’autre part, les odds ratios permettent une interprétation plus aisée des résultats (ils sont calculés comme l’exponentiel du coefficient).

logmultf4f.gif

L’interprétation des coefficients n’est pas immédiate. En reprenant l’équation du modèle nous avons : Log(P(Réponse=2)/P(Réponse=1))=-11.775+0.524*FEMALE+0.368*AGE

Nous pouvons donc dire que pour une augmentation d’une unité de la variable AGE, le logarithme du rapport entre les probabilités associées aux produits 1 et 2 augmentera de 0.368. Ainsi, plus une personne sera âgée, plus elle préférera la marque 2 à la première.

On voit d'après la probabilité associée aux tests du Chi2 que la variable qui influence le plus le choix de la marque 2 est l’âge. La même remarque peut être faite pour la marque 3. La constante a aussi un rôle significatif dans les deux cas.

Les odds ratios permettent de voir que si la variable AGE augmente d’une unité alors on aura 1.445 fois plus de chance de choisir la marque 2 plutôt que la marque 1.

Ainsi, les deux variables sont à prendre en compte par les experts, si, par exemple, ils désirent augmenter les parts de marché de la marque 1, ils devront tenter de conquérir les personnes plus âgées.

D’autres résultats sont disponibles et pourront compléter les analyses effectuées jusqu’à présent.

Nous contacter

Envoyer un email au service commercial

Contacter notre équipe de support technique : support@xlstat.com

https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283