Modèle logit conditionnel dans Excel, tutoriel
Modèle logistique conditionnel
Le modèle logit conditionnel est une méthode statistique proche de la régression logistique.
La régression logistique conditionnelle est une méthode surtout utilisée dans sa forme évoluée dans le cadre de l'analyse conjointe. Elle est néanmoins aussi utile lorsque l'on analyse un certain type de données. Ce modèle a été introduit par McFadden (1973). Au lieu d'avoir une ligne par individu, on aura une ligne par choix possible. Ainsi, ce ne sont plus les caractéristiques des individus qui sont modélisées, mais celles des différentes alternatives. Ainsi, si on cherche à étudier des habitudes de transport, comme dans ce tutoriel, on aura quatre types de transports (voiture / train / avion / vélo), chacun de ces types de transport a des caractéristiques (son prix, sa vitesse), mais un individu ne choisira qu'un seul des quatre moyens de transport.
Dans le cadre d'un modèle logit conditionnel, on aura pour N individus, N*4 lignes avec 4 lignes pour chaque individu associé à chacun des moyens de transport. La variable réponse binaire indiquera le choix de l'individu avec la valeur 1, et 0 correspondra aux choix non retenus par l'individu. Il faudra aussi sélectionner une colonne associée au nom des individus (avec 4 lignes par individu pour l'exemple des moyens de transport). Les variables explicatives devront aussi avoir N*4 lignes.
Jeu de données pour le modèle logit conditionnel
L'exemple que nous traitons ci-dessous correspond à un cas classique dans lequel on cherche à comparer des moyens de transport proposés pour partir en vacances à des individus. Il est issu de Greene, W.H. (2003). Econometric Analysis, 5th edition. Upper Saddle River, NJ: Prentice Hall.
Les données correspondent à un échantillon de 210 individus, avec pour chacun d'eux 4 possibles. On a demandé à chacun d'eux le moyen de transport qu'ils choisiraient pour partir en vacances parmi quatre possibilités. On aura donc 840 lignes dans le jeu de données. La première colonne permet d'identifier l'individu, la seconde est la variable binaire modélisant le moyen de transport choisi. On a ensuite deux variables quantitatives donnant respectivement le coût général et le temps d'attente lors du voyage associé à chaque moyen de transport pour chacun des individus. Finalement, la variable catégorielle associée au moyen de transport se trouve en dernier (avion, train bus ou voiture).
Paramétrer un modèle logit conditionnel
Pour activer la boîte de dialogue du modèle logit conditonnel, lancez XLSTAT, puis choisissez XLSTAT / XLSTAT-CJT / Logit conditionnel, ou cliquez sur le bouton correspondant de la barre d'outils XLSTAT-CJT (voir ci-dessous).
Une fois que vous avez cliqué sur le bouton, la boîte de dialogue apparaît.
Sélectionnez les données sur la feuille Excel.
Les données Réponses correspondent à la colonne dans laquelle se trouve la variable binaire. Les libellés des individus correspondent à la colonne sujet associé aux numéros des individus (on peut aussi avoir des noms d'individus à la place). Dans notre cas il y a trois variables explicatives, une qualitative - le moyen de transport - et deux quantitatives correspondant aux coût et temps d'attente (on remarquera qu'il est nul pour la voiture). Comme nous avons sélectionné les libellés des variables, nous devons sélectionner l'option Libellés des variables.
Une fois que vous avez cliqué sur le bouton OK, les calculs sont effectués puis les résultats affichés.
Interpréter les résultats d'un modèle logit conditionnel
Le tableau suivant donne plusieurs indicateurs de la qualité du modèle (ou qualité de l'ajustement). Ces résultats sont équivalents au R² et au tableau d'analyse de la variance de la régression linéaire et de l'Anova. La valeur la plus importante est le Chi² associé au Log ratio (L.R.). C'est l'équivalent du test F de Fisher du modèle linéaire : on essaie d'évaluer si les variables apportent une quantité d'information significative pour expliquer la variabilité de la variable binaire. Dans notre cas, comme la probabilité est inférieure à 0.0001, on peut conclure que les variables apportent une quantité significative d'information.
Ces coefficients d'ajustement nous montrent que notre modèle est significativement meilleur que le modèle sans variable explicative. Le tableau suivant confirme ces premières impressions:
Les p-valeurs obtenues sont toutes très faibles ainsi l'impact des 3 variables explicatives est significatif.
Finalement les coefficients du modèle nous montrent que c'est l'avion qui est préféré et que le temps d'attente a un effet négatif significatif sur le choix du mode de transport.
L'analyse des résidus peut être aussi utile et apporter d'autres informations sur les choix des individus.
Cet article vous a t-il été utile ?
- Oui
- Non