Aller au contenu principal

Forêt aléatoire de classification dans Excel

Ce tutoriel vous aidera à mettre en place et entraîner une forêt aléatoire pour réaliser une classification dans Excel en utilisant le logiciel de statistiques XLSTAT.

Jeu de données pour générer une Forêt aléatoire de classification

Le jeu de données est extrait de la compétition de Machine Learning intitulé Titanic: Machine Learning from Disaster sur Kaggle, la fameuse plateforme de data science. Il fait référence au naufrage du fameux paquebot le Titanic en 1912. Au cours de cette tragédie, plus de 1500 des 2224 passagers trouvèrent la mort en partie à cause d'un nombre insuffisant de canots de survie.

Le jeu de données en question est constitué d'une liste de 1309 passagers et des informations suivantes :

  • Survived : le passager a survécu (0 = Non; 1 = Oui)

  • Pclass : Classe voyage (1 = 1ère; 2 = 2nde; 3 = 3ème)

  • Name : Nom

  • Sex : Genre (homme ; femme)

  • Age : Age

  • Sibs : Nombre de frères et soeurs / épouses à bord

  • Parch : Nombre de parents / enfants à bord

  • Fare : Tarif pour le passager

  • Cabin : Cabine

  • Embarked : Port d'embarquement (C = Cherbourg ; Q = Queenstown; S = Southampton)

L'objectif de ce tutoriel est d'apprendre à mettre en place et entrainer une Forêt aléatoire de classification sur le jeu de données Titanic.

Paramétrer une Forêt aléatoire de classification dans XLSTAT

Une fois XLSTAT lancé, cliquez sur Machine Learning / Forêt aléatoire de classification et de régression comme indiqué ci-dessous :

Une fois que vous avez cliqué sur le bouton, la boîte de dialogue apparait.

Sélectionnez la colonne B (Pclass) dans le champ Variable réponse et choisissez le type de réponse Qualitative. Il faut également sélectionner des variables explicatives Quantitatives et Qualitatives en activant les deux options comme illustré au-dessus.

Comme le nom de chaque variable est présent au début du fichier, assurez-vous que la case Libellés des variables est cochée. Ayant à disposition le nom de chaque passager présent, activer l’option Libellés des observations et sélectionnez la colonne C (Name).

Dans l'onglet Options, vous pouvez ajuster plusieurs paramètres ayant une incidence sur la construction des arbres comme indiqué ci-dessous.

Les données comprennent des valeurs manquantes, nous décidons donc de supprimer ces dernières de notre base d’apprentissage dans l’onglet Données manquantes.

Dans l'onglet sorties, sélectionnez les sorties voulues en cochant les cases concernées comme indiqué ci-dessous :

Dans l’onglet Graphiques, activez l’option Evolution de l’erreur OOB pour avoir l’évolution de l’erreur OOB (Out Of Bag) en fonction du nombre d’arbres construits.

Une fois que vous avez cliqué sur le bouton OK, les calculs commencent puis les résultats sont affichés.

Interpréter les résultats d'une Forêt aléatoire de classification

La première sortie est le taux d'erreur OOB de la forêt aléatoire. Cette erreur correspond à l’erreur moyenne de classification commise sur chaque échantillon OOB de l’ensemble d’apprentissage. Nous appelons échantillon OOB, l'échantillon composé de toutes les observations Out-Of-Bag. Plus de détails sur cette notion sont disponibles dans l'aide de la fonctionnalité.

Le tableau qui suit donne la matrice de confusion obtenue sur l’ensemble d'apprentissage. Ces matrices donnent le niveau de performance de notre classifieur (Performances mesurées sur les données OOB). Sur le jeu d'apprentissage, nous avons obtenu 95.01% de réponses correctes.

Le second tableau affiche la classe prédite pour chaque observation de l'échantillon d'apprentissage lorsque cette dernière est Out-Of-Bag, ainsi que la probabilité d'appartenir aux différentes catégories de la variable réponse. Le nombre de fois où les observations sont « Out-Of-Bag » (et donc utilisées dans le calcul de l'estimation de l'erreur OOB) est également affiché :

Le graphique qui suit résume l'évolution des taux d'erreur OOB en fonction du nombre d'arbres.


Pour aller plus loin :
Cliquez ici pour consulter notre tutoriel sur la régression Random Forest avec XLSTAT !

Cet article vous a t-il été utile ?

  • Oui
  • Non