Régression Ridge dans Excel

Ce tutoriel explique comment mettre en place et interpréter une régression Ridge dans Excel en utilisant le logiciel de statistiques XLSTAT.

Jeu de données pour réaliser une régression Ridge

Les données originales sont dues à Osborne et al. (1984). Le jeu de données contient, pour 30 cookies, les discrétisations de spectres en proche infra-rouge. Le spectre est observé sur toutes les longueurs d’ondes comprises entre 1100 et 2460 nanomètres, avec un espacement de 40 nanomètres entre chaque longueur d’onde, ce qui fait donc 35 variables explicatives dans le jeu de données. Le tableau de données contient, également, la composition en eau de chacun des cookies.

But de ce tutoriel

Le but de ce tutoriel est d’apprendre à mettre en place et interpréter une régression Ridge afin de prédire la composition des différents cookies en eau.

Paramétrer la régression Ridge

Une fois XLSTAT lancé, cliquez sur Modélisation des données/ Régression Ridge comme indiqué ci-dessous :

Menu XLSTAT pour la régression Ridge

Une fois que vous avez cliqué sur le bouton, la boîte de dialogue de la régression Ridge apparaît.

Vous pouvez alors sélectionner les données sur la feuille Excel. La Variable dépendante correspond à la variable expliquée (ou variable à modéliser), qui est dans ce cas précis la composition en eau des cookies.

Les Variables quantitatives explicatives correspondent à toutes les colonnes numérotées de L1 à L35. On veut ici expliquer la variabilité de la contenance en eau dans les cookies en fonction du spectre.

On ne sélectionne que les 20 premiers cookies du jeu de données pour participer à la modélisation, les autres serviront à la prédiction.

Comme le nom de chaque variable est présent au début du fichier, assurez-vous que la case Libellés des variables est cochée.

Vous pouvez, également, cocher la case Libellés des observations et sélectionner le nom des différents cookies.

Configurer l'onglet Général pour la régression Ridge

Dans l'onglet Options, on utilise la validation croisée pour trouver le paramètre de régularisation lambda optimal. On choisit de former 5 blocs pour la validation croisée et de tester 100 valeurs de lambda.

Dans l’onglet Prédiction, sélectionnez les données sur lesquelles vous souhaitez obtenir une prédiction. On sélectionne, ici, les 10 derniers cookies composant le jeu de données.

Configurer l'onglet Prédiction pour la régression Ridge

Dans l’onglet Sorties, sélectionnez les sorties comme indiqué ci-dessous :

Dans l’onglet Graphiques, vous pouvez activer l’option Evolution de la MCE (Validation croisée) qui permet d’avoir accès à l’évolution de la MCE (Moyenne des Carrés des Erreurs) en fonction du paramètre de régularisation.

Les calculs démarrent lorsque vous cliquez sur OK. Les résultats sont ensuite affichés.

Interpréter les résultats d’une régression Ridge

Le tableau « Paramètres du modèle » fournit les détails sur le modèle et est essentiel dès lors que le modèle doit être utilisé pour faire des prévisions ou pour analyser l’importance des variables. Nous voyons que les 35 variables ont été conservées dans la modélisation avec des coefficients de faible valeur et relativement homogènes.

Tableau des paramètres du modèle pour la régression Ridge

Le graphique suivant affiche l’évolution de la MCE en fonction du paramètre de régularisation Lambda. La valeur de Lambda sélectionnée par XLSTAT est celle qui minimise la MCE, soit ici environ 0,133.

Graphique de l'évolution de la MCE pour la régression Ridge

Le dernier tableau donne, suite à l’estimation du modèle, les prédictions de la composition en eau des 10 cookies composant le jeu de données de prédiction.

Tableau des prédictions pour les nouvelles observations pour la régression Ridge

Conclusion sur la régression Ridge

Finalement, contrairement à la régression LASSO, la régression Ridge a modélisé la composition en eau des différents cookies avec la totalité des 35 variables à disposition. En parallèle, à l’inverse de la régression LASSO, aucune variable ne se démarque réellement par un gros coefficient dans la modélisation construite par la régression Ridge.

Cet article vous a t-il été utile ?