Comparaison des modèles prédictifs dans Excel
Ce tutoriel explique comment comparer différents modèles prédictifs avec Excel en utilisant XLSTAT.
Jeu de données
Le jeu de données représente les caractéristiques des abalones, qui sont de gros mollusques gastropodes. Pour connaître l’âge d’un abalone il faut colorier les anneaux (RINGS) et les compter au microscope, ce qui reste un travail fastidieux.
Après avoir réalisé les modèles prédictifs SVR (Régression par machine à vecteur de support) et CART (Arbres de classification et de régression), nous chercherons à sélectionner celui qui nous permettra de prédire au mieux l’âge des abalones à partir de leurs caractéristiques physiques.
Paramétrisation de la boîte de dialogue
Une fois XLSTAT lancé, sélectionnez le menu XLSTAT / Machine learning / Indicateurs de performance de modèles. La boîte de dialogue Indicateurs de performance de modèles apparaît. Dans l’onglet Général, sélectionnez la variable réponse, qui dans notre cas correspond à la variable "Rings". Dans le champ valeurs prédites sélectionnez les prédictions (SVR-Pred et TREE-Pred) réalisées avec les différents modèles utilisés. Ensuite on coche l’option variables explicatives pour spécifier le nombre de variables utilisées dans la construction de nos modèles. Cette information est utile pour le calcul de certains indicateurs (R² ajusté, AIC, SBC). Ici, toutes les variables (8) du jeu de données ont été utilisées.
L'option Libellés des variables est laissée activée car la première ligne des colonnes sélectionnées comprend le nom des variables. Dans l’onglet Sorties, plusieurs indicateurs sont proposés, sélectionnez ceux que vous souhaitez afficher.
Interprétation des indicateurs de performance de modèles
Le premier tableau nous permet en un coup d’œil d’avoir pour chacun des modèles les valeurs des indicateurs calculés.
Les indicateurs d'erreur comme le RMCE nous montre que le second modèle est plus performant. Afin de déterminer si cette différence est grande, nous pouvons regarder le R2 qui est un indicateur entre 0 et 1. Il correspond au coefficient de détermination du modèle et s'interprète comme la proportion de la variabilité de la variable réponse expliquée par le modèle. Plus sa valeur est proche de 1, meilleur est le modèle. Dans notre cas environ 57% de la variabilité est expliquée par le modèle utilisant les SVR contre 40% pour le second.
Le R² ajusté est de 0,49 pour le modèle utilisant la SVR et de 0,28 pour celui utilisant les arbres de régression.
Avant d’analyser les prédictions et les résidus, examinons d’abord les graphiques de régression. Plusieurs graphiques sont affichés pour chacun des modèles, mais nous nous intéresserons plus particulièrement à 2 d’entre eux dans ce tutoriel.
- Variable dépendante VS Prédictions : Ce graphique permet de comparer les prévisions et les valeurs observées. Plus la variance expliquée par le modèle est grande, plus les points se rapprocheront de la droite de régression.
- Variable dépendante VS Résidus normalisés :
En observant ces graphiques, nous remarquons :
- Une variation des erreurs plus grande sur modèle utilisant les arbres de régression que pour les prédictions réalisées avec le modèle SVR.
- De bonnes performances (petits résidus) du modèle SVR sur les abalones les plus jeunes (RINGS <= 15) et des performances qui se dégradent pour les plus âgés.
- La présence d’une observation isolée (en haut à droite). Cette observation correspond à l’abalone le plus âgé (RING = 29). Le tableau des prédictions et résidus nous permettra d’examiner plus en détails cette observation.
De manière générale, plus les résidus sont proches de 0, plus le modèle s’ajuste aux données.
Le tableau qui suit présente une partie de l'analyse des prédictions et des résidus. Dans la colonne « résidus » sont notés en vert (resp. rouge), les résidus qui ont le plus petit (resp. plus grand) écart par rapport à 0. Cela nous permet de voir pour chacune des observations lesquelles sont les mieux (resp. moins bien) prédites.
L’observation 32 (Obs32) est celle sur laquelle l’écart entre la valeur prédite et celle observée est le plus grand pour les 2 modèles. Elle correspond aussi à l’abalone le plus âgé de notre échantillon.
En nous intéressant de plus près à cette observation, on remarque qu’elle correspond à l’observation isolée sur le graphique 2 (Variable dépendante VS Résidus normalisés) et le résidu associé est détecté comme étant atypique. Un résidu est noté comme atypique s’il significativement supérieur aux autres résidus. Ainsi les prédictions associées à cette observation doivent être traitées avec précaution.
Conclusion
En conclusion, le meilleur modèle parmi les deux modèles réalisés est celui mettant en œuvre la SVR (Régression par machine à vecteur de support), le modèle explique 57% de la variabilité de l’âge des abalones, de plus il présente une meilleure distribution des erreurs que le second modèle utilisé. Cependant il n’est certainement pas le plus adapté pour prédire l’âge des abalones car il présente de mauvaises performances quand l’âge des abalones est supérieur à 15. La solution la plus adaptée dans notre cas serait soit de combiner notre modèle SVR à un second modèle soit de chercher à construire un nouveau modèle qui sera plus prompt à prédire l’âge des abalones.
Cet article vous a t-il été utile ?
- Oui
- Non