Régression Elastic net dans Excel
Jeu de données pour réaliser une régression Elastic net
Les données originales sont dues à Osborne et al. (1984). Le jeu de données contient, pour 30 cookies, les discrétisations de spectres en proche infra-rouge. Le spectre est observé sur toutes les longueurs d’ondes comprises entre 1100 et 2460 nanomètres, avec un espacement de 40 nanomètres entre chaque longueur d’onde, ce qui fait donc 35 variables explicatives dans le jeu de données. Le tableau de données contient, également, la composition en farine de chacun des cookies.
Le but est de prédire la composition des différents cookies en farine.
But de ce tutoriel
Le but de ce tutoriel est d’apprendre à mettre en place et interpréter une régression Elastic net sur le jeu de données Cookies.
Paramétrer la régression Elastic net
Une fois XLSTAT lancé, cliquez sur Modélisation des données/ Régression Elastic net comme indiqué ci-dessous :
Une fois que vous avez cliqué sur le bouton, la boîte de dialogue de la régression Elastic net apparaît.
Vous pouvez alors sélectionner les données sur la feuille Excel. La Variable dépendante correspond à la variable expliquée (ou variable à modéliser), qui est dans ce cas précis la composition en farine des cookies.
Les Variables quantitatives explicatives correspondent à toutes les colonnes numérotées de L1 à L35. On veut ici expliquer la variabilité de la contenance en farine dans les cookies en fonction du spectre.
On ne sélectionne que les 20 premiers cookies du jeu de données pour participer à la modélisation, les autres serviront à la prédiction.
Comme le nom de chaque variable est présent au début du fichier, assurez-vous que la case Libellés des variables est cochée.
Vous pouvez, également, cocher la case Libellés des observations et sélectionner le nom des différents cookies.
Dans l'onglet Options, on utilise la validation croisée pour trouver les paramètres Alpha et Lambda optimaux. On choisit de former 5 blocs pour la validation croisée et de tester 100 valeurs de chacun des paramètres.
Dans l’onglet Prédiction, sélectionnez les données sur lesquelles vous souhaitez obtenir une prédiction. On sélectionne, ici, les 10 derniers cookies composant le jeu de données.
Dans l’onglet Sorties, sélectionnez les sorties comme indiqué ci-dessous :
Les calculs démarrent lorsque vous cliquez sur OK. Les résultats sont ensuite affichés.
Interpréter les résultats d’une régression Elastic net
Le tableau « Résultats de la validation croisée » livre la valeur des paramètres retenus par la validation croisée : la valeur du couple (Lambda ; Alpha) sélectionnée par XLSTAT est celle qui minimise la MCE, soit ici le couple (0,012 ; 0,616).
Le tableau « Paramètres du modèle » fournit les détails sur le modèle et est essentiel dès lors que le modèle doit être utilisé pour faire des prévisions ou pour analyser l’importance des variables. Nous voyons que seules 15 des 35 variables ont été conservées dans la modélisation, les autres possèdent un coefficient nul.
Le dernier tableau donne, suite à l’estimation du modèle, les prédictions de la composition en farine des 10 cookies composant le jeu de données de prédiction.
Conclusion sur la régression Elastic net
Finalement, la régression Elastic net a modélisé la composition en farine des différents cookies avec seulement 15 des 35 variables à disposition : les autres variables étant été jugées pas assez explicatives ou bien contenant une information trop similaire à une variable déjà sélectionnée. Face à ce même jeu de données, la régression LASSO aurait, elle, fait le choix de conserver 11 variables dans la modélisation, quand la régression Ridge aurait conservé les 35 variables à disposition. Ce fait confirme donc bien que la régression Elastic net est une méthode compromis entre les régressions Ridge et LASSO.
Cet article vous a t-il été utile ?
- Oui
- Non