Solution d'analyse de données

Régression logistique ordinale dans Excel

20/10/2017

Modèle logit ordinal

Le modèle logit ordinal consiste en une modification du modèle logit classique pour des variables à expliquer ayant des modalités ordonnées (cette méthode peut aussi être appelée régression logistique ordinale).

Le principe de ce modèle est le suivant : on veut comprendre ou prédire l'effet d'une ou plusieurs variables sur une variable qualitative ayant des modalités ordonnées. Cette variable doit être une variable catégorielle ordonnée. On pourra ainsi comprendre l’impact du choix d’une modalité en fonction des variables explicatives en prenant en compte l'ordre des modalités. Ce modèle est basé sur les probabilités cumulées.

Ce type de modèle s’applique par exemple dans le cas marketing aux appréciations sur un produit.

XLSTAT permet d’appliquer le modèle logit ordinal sur des données brutes.

La fenêtre associée au modèle logit ordinal est la même que celle associée à la régression logistique binaire ou à la régression logistique multinomiale.

Jeu de données pour la création d'un modèle logit ordinal

Le modèle logit ordinal permet de modéliser la probabilité cumulée qu'un événement survienne étant donné les valeurs d'un ensemble de variables descriptives quantitatives et/ou qualitatives.

L'exemple traité ici examine les facteurs qui influencent la décision de s'inscrire ou non à des études supérieures. Des lycéens sont interrogés sur le fait de savoir s'il vont "plutôt pas", "peut-être", "sûrement" s'inscrire à l'université. Ainsi, notre variable de réponse comporte trois catégories. Les données explicatives sont le niveau d'instruction des parents, le statut de l'établissement de premier cycle, et la moyenne des notes du lycéen interrogé.

Les chercheurs ont des raisons de croire que les "distances" entre ces trois points ne sont pas égales. Par exemple, la distance entre "plutôt pas" et "peut-être" peut être plus courte que la distance entre "peut-être" et "sûrement". Ceci nous pousse donc à utiliser un modèle du type ordinal logit plutôt que d'utiliser une ANCOVA en supposant que la variable à 3 modalités peut être traitée comme une variable quantitative.

Le fichier Excel comprenant à la fois les données et les résultats peut être téléchargé en cliquant ici.

Paramétrer un modèle logit ordinal

Pour activer la boîte de dialogue du modèle logit multinomial, lancez XLSTAT, puis choisissez XLSTAT / Modélisation des données / Régression logistique, ou cliquez sur le bouton correspondant de la barre d'outils Modélisation des données (voir ci-dessous). Puis sélectionnez la régression logistique.

Menu logit

Une fois que vous avez cliqué sur le bouton, la boîte de dialogue apparaît. Le modèle logit ordinal est activé en sélectionnant l’option ordinale comme type de réponse. Sélectionnez les données sur la feuille Excel. Les données Réponse correspondent à la colonne dans laquelle se trouve la variable à expliquer.

Dans notre cas il y a deux variables explicatives qualitatives correspondant au type de lycée (privé/public) et au fait que les parents ont suivi un cursus universitaire. Il y a une variable explicative quantitative : la moyenne obtenue au lycée.

Comme nous avons sélectionné les libellés des variables, nous devons sélectionner l'option Libellés présents.

Ordinal logit boite de dialogue

De nombreuses autres options sont disponibles dans les autres onglets de la boîte de dialogue (pour de plus amples détails, voir l’aide de XLSTAT).

Une fois que vous avez cliqué sur le bouton OK, les calculs sont effectués puis les résultats affichés.

Interpréter les résultats d'un modèle logit ordinal

Le tableau suivant donne plusieurs indicateurs de la qualité du modèle (ou qualité de l'ajustement). Ces résultats sont équivalents au R2 et au tableau d'analyse de la variance de la régression linéaire et de l'Anova. La valeur la plus importante est le Chi2 associé au Log ratio (L.R.). C'est l'équivalent du test F de Fisher du modèle linéaire : on essaie d'évaluer si les variables apportent une quantité d'information significative pour expliquer la variabilité de la variable cible. Dans notre cas, comme la probabilité est inférieure à 0.0001, on peut conclure que les variables apportent une quantité significative d'information.

Ordinal logit coefficients ajustement

Ordinal logit global test

On peut ensuite tester l'impact de chaque variable en utilisant des tests de type III comme en analyse de la variance.

Ordinal logit type 3 test

On voit que la note ainsi que l'éducation des parents ont un effet significatif sur la réponse de l'élève. Par contre, le fait qu'une école soit publique ou privée n'a pas d'impact.

Le tableau suivant donne les premiers détails sur le modèle et est utile pour évaluer la contribution des variables à la qualité du modèle. Il est légèrement différent du cas de la régression logistique. En effet, on a des constantes pour chaque modalité de la variable de réponse. Par contre, il n'y a qu'une seule série de coefficients car on suppose qu'il y a égalité des pentes d'une modalité à une autre.

Ordinal logit paramètres du modèle

L’interprétation des coefficients n’est pas immédiate. En reprenant l’équation du modèle nous avons : Log(P(Réponse<=1)/P(Réponse>1))=2.203-0.616*Moyenne-1.048*Educ_Parents-Avech+0.059*Ecole-Publique

Nous pouvons donc dire que pour une augmentation d’une unité de la variable Moyenne, le logarithme du rapport entre les probabilités associées aux appréciations "plutôt pas / peut être" et à l'appréciation "sûrement" baissera de 0.616. On peut donc dire que plus la note moyenne est haute plus la probabilité d'aller à l'université est grande.

On voit d'après la probabilité associée aux tests du Chi2 que la variable qui influence le plus le choix des élèves est le niveau d'éducation de leurs parents.
 
D’autres résultats sont disponibles et pourront compléter les analyses effectuées jusqu’à présent. On pourra entre autre utiliser les probabilités individuelles ou les tableaux de classification.

Nous contacter

Envoyer un email au service commercial

Contacter notre équipe de support technique : support@xlstat.com

https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283