Régression log-linéaire (Poisson) dans Excel
Ce tutoriel explique comment calculer et interpréter une régression log-linéaire avec Excel en utilisant XLSTAT.
Jeu de données pour la régression log-linéaire
Les données utilisées représentent le nombre de bourses obtenues par des étudiants d’une grande école. Pour expliquer le nombre de bourses obtenues, on dispose de deux prédicteurs qui sont la note de l’examen de mathématique et le type de programme dans lequel l’étudiant est inscrit (professionnel, général ou académique).
Les données à expliquer étant des données de comptage, une régression log-linéaire avec une distribution de Poisson doit être utilisée afin d’expliquer et/ou de prédire le nombre de bourses obtenues par un étudiant.
Paramétrer une régression log-linéaire
Une fois XLSTAT ouvert, sélectionnez la commande XLSTAT / Modélisation de données / Régression log-linéaire, ou cliquez sur le bouton correspondant dans la barre de menu.
La boîte de dialogue Régression log-linéaire apparaît.
Les données sont présentées sous forme d’un tableau constitué de 200 lignes et 3 colonnes. La première colonne correspond à la variable réponse et les deux suivantes aux variables explicatives. Les données ont toutes le même poids et aucun Offset n’est présent.
Dans l’onglet Options, on trouve la possibilité de régler plusieurs critères concernant l’algorithme d’inférence, de fixer la constante du modèle et d’ajouter des interactions entre les variables. Nous choisissons ici de laisser l’ensemble des paramètres aux valeurs par défaut.
Lancez les calculs en cliquant sur OK. Les résultats sont affichés dans une nouvelle feuille Excel.
Interpréter les résultats
Les premiers résultats affichés sont les statistiques descriptives pour chaque variable, la variable à expliquer est représentée en bleue.
Le tableau suivant donne plusieurs indicateurs de la qualité du modèle (ou qualité de l'ajustement). Ces résultats sont équivalents au R2 et au tableau d'analyse de la variance de la régression linéaire et de l'ANOVA. La valeur la plus importante est le Chi2 associé au Log ratio (L.R.). C'est l'équivalent du test F de Fisher du modèle linéaire : on essaie d'évaluer si les variables apportent une quantité d'information significative pour expliquer la variabilité de la variable binaire. Dans notre cas, comme la probabilité est inférieure à 0.0001, on peut conclure que les variables apportent une quantité significative d'information.
Le tableau suivant donne la valeur estimée des différents coefficients pour le modèle ajusté. Un test de significativité est également donné pour chaque coefficient. Dans notre cas, ce test permet de conclure que le paramètre associé à la modalité « Programme-Général » n’est pas significativement différent de 0 (à un niveau 5%).
La dernière étape consiste en l'application du modèle sur l'ensemble de la population.
Cet article vous a t-il été utile ?
- Oui
- Non