Forêts aléatoires de régression dans Excel
Ce tutoriel explique comment mettre en place et entraîner une forêt aléatoire pour réaliser une régression dans Excel en utilisant le logiciel de statistiques XLSTAT.
Jeu de données pour mettre en place une forêt aléatoire de régression
Le jeu de données utilisé dans ce tutoriel est extrait de la compétition de Machine Learning intitulé Titanic: Machine Learning from Disaster sur Kaggle, la fameuse plateforme de data science.
Les données sont accessibles à cette adresse. Elles font référence au naufrage du fameux paquebot le Titanic en 1912. Au cours de cette tragédie, plus de 1500 des 2224 passagers trouvèrent la mort en partie à cause d'un nombre insuffisant de canots de survie.
Le jeu de données en question est constitué d'une liste de 1309 passagers et des informations suivantes : - Survived : le passager a survécu (0 = Non; 1 = Oui)
-
Pclass : Classe voyage (1 = 1ère; 2 = 2nde; 3 = 3ème)
-
Name : Nom
-
Sex : Genre (homme ; femme)
-
Age : Age
-
Sibs : Nombre de frères et soeurs / épouses à bord
-
Parch : Nombre de parents / enfants à bord
-
Fare : Tarif pour le passager
-
Cabin : Cabine
-
Embarked : Port d'embarquement (C = Cherbourg ; Q = Queenstown; S = Southampton)
L'objectif de ce tutoriel est d'apprendre à mettre en place et entrainer une Forêt aléatoire de régression (RDF).
Paramétrer une forêt aléatoire de régression dans XLSTAT
Une fois XLSTAT lancé, cliquez sur Machine Learning / Forêt aléatoire de classification et de régression :
La boîte de dialogue RDF apparait.
Sélectionnez les données dans la feuille Excel. Dans le champ intitulé Type de réponse, sélectionnez le type de variable que souhaitez prédire (ici Quantitative). Dans notre cas, c'est la colonne donnant l'information sur le tarif.
Comme le nom de chaque variable est présent au début du fichier, assurez-vous que la case Libellés des variables est cochée. Ayant à disposition le nom de chaque passager présent, assurez-vous donc de cocher la case Libellés des observations et de sélectionner la colonne correspondante (colonne Name).
Dans l'onglet Options, vous pouvez ajuster plusieurs paramètres ayant une incidence sur la construction des arbres comme indiqué ci-dessous. Activez l’option convergence et la fixez à 100 pour autoriser XLSTAT à vérifier tous les 100 arbres construits que l’algorithme a convergé, c’est-à-dire que, l’erreur OOB se stabilise.
Dans l'onglet Sorties, sélectionnez les sorties voulues en cochant les cases concernées comme indiqué ci-dessous :
En ce qui concerne les graphiques, dans l’onglet Graphiques cochez la case Evolution de l’erreur OOB pour avoir l’évolution de l’erreur OOB (Out Of Bag) en fonction du nombre d’arbres construits. Sélectionnez aussi la case importance des variables pour afficher sous forme de graphique l’importance de chacune des variables explicatives.
Une fois que vous avez cliqué sur le bouton OK, les calculs commencent puis les résultats sont affichés dans un nouvelle feuille.
Interpréter les résultats d'une forêt aléatoire de régression
Le premier résultat affiché est l’erreur OOB. Cette erreur correspond à l’erreur moyenne de prédiction commise sur chaque échantillon OOB de l’ensemble d’apprentissage.
Le tableau qui suit affiche la réponse associée à chaque observation et la valeur prédite pour cette dernière (prédiction faite en utilisant uniquement les arbres dans lesquels elle est OOB).
Ensuite, nous avons pour chaque observation de l’ensemble d’apprentissage le minimum, le maximum, la moyenne et l’écart-type des valeurs prédites par tous arbres dans lesquels l’observation est OOB.
Le tableau suivant affiche l’évolution de l’erreur OOB en fonction du nombre d’arbres. La ligne i du tableau correspond à l’erreur OOB commise en prenant en compte tous les arbres jusqu’au i -ème.
Le graphique qui suit résume l’information contenue dans le tableau précédent.
On remarque que l’erreur décroît rapidement puis se stabilise. Comme la convergence de l’algorithme est vérifiée tous les 100 arbres, l’algorithme s’arrête à 200 arbres construits car l’erreur ne varie presque plus. Le tableau ci-dessous contient la mesure d’importance normalisée de chacune des variable explicatives (normalisation par l’écart-type).
Le graphique qui suit résume l’information contenue dans le tableau précédent.
La variable la plus importante du point de vue de la variable à prédire est celle donnant l’info sur la classe de voyage des passagers. On identifie donc un lien clair entre le tarif et la classe de voyage.
Le dernier tableau affiche pour chaque variable l’écart-type de sa mesure d’importance :
Aller plus loin : Créer une Forêt aléatoire de classification
Souhaitez-vous prédire la classe voyage des passagers ? Cliquez ici pour voir comment mettre en place et entrainer une Forêt aléatoire de classification sur le jeu de données Titanic.
Cet article vous a t-il été utile ?
- Oui
- Non