Aller au contenu principal

Régression logistique ordinale dans Excel

Ce tutoriel explique comment calculer et interpréter une régression logistique ordinale avec Excel en utilisant XLSTAT.

Modèle logit ordinal

Le modèle logit ordinal consiste en une modification du modèle logit classique pour des variables à expliquer ayant des modalités ordonnées (cette méthode peut aussi être appelée régression logistique ordinale). Il permet de modéliser la probabilité cumulée qu'un événement survienne étant donné les valeurs d'un ensemble de variables descriptives quantitatives et/ou qualitatives.

Le principe de ce modèle est le suivant : on veut comprendre ou prédire l'effet d'une ou plusieurs variables sur une variable qualitative ayant des modalités ordonnées. Cette variable doit être une variable catégorielle ordonnée. On pourra ainsi comprendre l’impact du choix d’une modalité en fonction des variables explicatives en prenant en compte l'ordre des modalités. Ce modèle est basé sur les probabilités cumulées. Ce type de modèle s’applique par exemple dans le cas marketing aux appréciations sur un produit.

XLSTAT permet d’appliquer le modèle logit ordinal sur des données brutes.

La fenêtre associée au modèle logit ordinal est la même que celle associée à la régression logistique binaire ou à la régression logistique multinomiale.

Jeu de données pour la création d'un modèle logit ordinal

L'exemple traité ici examine les facteurs qui influencent la décision de s'inscrire ou non à des études supérieures. Des lycéens sont interrogés sur le fait de savoir s'il vont "plutôt pas", "peut-être", "sûrement" s'inscrire à l'université. Ainsi, notre variable de réponse comporte trois catégories. Les données explicatives sont le niveau d'instruction des parents, le statut de l'établissement de premier cycle, et la moyenne des notes du lycéen interrogé.

Les chercheurs ont des raisons de croire que les "distances" entre ces trois points ne sont pas égales. Par exemple, la distance entre "plutôt pas" et "peut-être" peut être plus courte que la distance entre "peut-être" et "sûrement". Ceci nous pousse donc à utiliser un modèle du type ordinal logit plutôt que d'utiliser une ANCOVA en supposant que la variable à 3 modalités peut être traitée comme une variable quantitative.

Le fichier Excel comprenant à la fois les données et les résultats peut être téléchargé en cliquant sur le lien donné au début de ce tutoriel.

Paramétrer un modèle logit ordinal

Pour activer la boîte de dialogue du modèle logit multinomial, lancez XLSTAT, puis choisissez XLSTAT / Modélisation des données / Régression logistique.

LOG_MENU_FR.PNG

Une fois que vous avez cliqué sur le bouton, la boîte de dialogue apparaît. Le modèle logit ordinal est activé en sélectionnant l’option ordinale comme type de réponse. Sélectionnez les données sur la feuille Excel. Les données Réponse correspondent à la colonne dans laquelle se trouve la variable à expliquer.

Dans notre cas il y a deux variables explicatives qualitatives correspondant au type de lycée (privé/public) et au fait que les parents ont suivi un cursus universitaire. Il y a une variable explicative quantitative : la moyenne obtenue au lycée.

Comme nous avons sélectionné les libellés des variables, nous devons sélectionner l'option Libellés des variables.
LOG_GENERAL_FR.PNG

De nombreuses autres options sont disponibles dans les autres onglets de la boîte de dialogue (pour de plus amples détails, voir l’aide de XLSTAT).

Une fois que vous avez cliqué sur le bouton OK, les calculs sont effectués puis les résultats affichés.

Interpréter les résultats d'un modèle logit ordinal

Le tableau des coefficients d'ajustement donne plusieurs indicateurs de la qualité du modèle (ou qualité de l'ajustement). Ces résultats sont équivalents au R² et au tableau d'analyse de la variance de la régression linéaire et de l'ANOVA. La valeur la plus importante est le Khi² associé au Log ratio (L.R.). C'est l'équivalent du test F de Fisher du modèle linéaire : on essaie d'évaluer si les variables apportent une quantité d'information significative pour expliquer la variabilité de la variable cible. Dans notre cas, comme la pvaleur est inférieure à 0.0001, on peut conclure que les variables apportent une quantité significative d'information.

Le tableau des paramètres du modèle donne les premiers détails sur le modèle et est utile pour évaluer la contribution des variables à la qualité du modèle. Il est légèrement différent du cas de la régression logistique multinomiale. En effet, si l’on a une constante pour chaque modalité de la variable réponse (inscription à l’université ici), les coefficients des variables explicatives sont communs à chaque modalité.
Nous pouvons donc dire que plus la note moyenne est haute, plus la probabilité d'aller à l'université est grande. En effet, le coefficient est significativement négatif, et notre modèle a comme modalité de référence 2 (inscription à l’université). Par conséquent, un coefficient négatif dans la prédiction des modalités 0 et 1 indique que moins la moyenne est élevée, plus les modalités 0 et 1 sont vraisemblables, De plus, d'après la probabilité associée aux tests du Khi², nous pouvons voir que la variable qui influence le plus le choix des élèves est le niveau d'éducation de leurs parents. En revanche, le statut de l’établissement n’influe pas significativement.

Ensuite, vous pouvez visualiser le tableau des Prédictions et résidus. Nous pouvons voir que le premier lycéen (Obs1) interrogé estime qu'il va sûrement s'inscrire à l'université (modalité 2) mais le modèle prédit qu'il ne va probablement pas s'inscrire (modalité 0). En effet, nous pouvons voir que la probabilité qu'il ne s'inscrive "plutôt pas" est la plus importante et est estimée à 0.549 tandis que la probabilité de "peut-être" s'inscrire ou de "sûrement" s'inscrire est estimée à respectivement 0.359 et 0.092.

La colonne Changement significatif nous indique que le changement de valeur entre la modalité prédite et celle du jeu de données est significatif. La deuxième colonne Significatif indique quant à elle, quelle que soit la modalité retenue, si la probabilité pour cette modalité est supérieure ou non à celles des autres modalités.
A noter que ces deux colonnes apparaissent si l'option Analyse de significativité a été cochée dans les sorties de la boite de dialogue.

Le tableau de classification pour l'échantillon d'apprentissage (parfois appelée matrice de confusion) est ensuite affiché dans le rapport. Le tableau permet de visualiser le pourcentage d'observations bien classées pour chaque modalité (vrais positifs et vrais négatifs). Par exemple, nous pouvons voir que les observations de la modalité "plutôt pas" associée au code 0 ont bien été classées à 91,36% alors que les observations de la modalité "peut-être" (code 1) ont été bien classées qu'à seulement 21,43%. Enfin, aucune des observations de la modalité "sûrement" (code 2) n’a été bien classée.

Le confusion plot permet de visualiser synthétiquement ce tableau. Les carrés en gris sur la diagonale représentent les effectifs observés pour chaque modalité. Les carrés orange représentent quant à eux, les effectifs prédits pour chaque modalité. Ainsi, nous pouvons voir que les surfaces des carrés se superposent quasiment intégralement pour la modalité "plutôt pas" (code 0) contrairement à la modalité "peut-être" (code 1) ou à la modalité "sûrement" (code 2). Autrement dit, pour la modalité "plutôt pas" (code 0), le modèle a bien prédit 201 observations sur 220 observations observées.

Cet article vous a t-il été utile ?

  • Oui
  • Non