Easy fit - Sélection de modèles prédictifs dans Excel

Ce tutoriel explique comment générer et sélectionner des modèles prédictifs dans Excel avec XLSTAT.

But de la fonction Easy Fit

Utilisez la fonction Easy Fit afin de tester et comparer différents modèles prédictifs sur un même jeu de données. En fonction du type de variable à prédire (quantitative ou qualitative) et du type de variables explicatives, différents modèles prédictifs sont proposés. La fonction Easy Predict vous permet ensuite de prédire les valeurs de nouvelles observations sur les modèles précédemment générés.

Ce tutoriel montre comment générer et sélectionner plusieurs modèles de classification (cas où la variable à prédire Y est qualitative). Cependant la fonction Easy Fit permet, de la même manière que dans ce tutoriel, de traiter des modèles de régression (cas où la variable à prédire Y est quantitative)

Le tableau ci-dessous montre les différents modèles prédictifs actuellement disponibles dans la fonctionnalité Easy Fit en fonction de la nature de la variable Y à expliquer et de la nature des variables explicatives X :

Tableau contenant les différents modèles prédictifs de Easy fit

Jeu de données pour sélectionner des modèles prédictifs de classification

Le jeu de données est extrait de la compétition de Machine Learning intitulée Titanic: Machine Learning from Disaster sur Kaggle, la plateforme de data science. Il fait référence au naufrage du paquebot Titanic en 1912. Au cours de cette tragédie, plus de 1500 des 2224 passagers trouvèrent la mort en partie à cause d'un nombre insuffisant de canots de survie.

Le jeu de données en question est constitué d'une liste de 1309 passagers et des informations suivantes :

La variable qualitative Y à prédire :
SURVIVED : le passager a survécu (0 = Non ; 1 = Oui)

3 variables explicatives qualitatives :
PCLASS : Classe voyage (1 = 1ère ; 2 = 2nde ; 3 = 3ème)
SEX : Genre (homme ; femme)
EMBARKED : Port d'embarquement (C = Cherbourg ; Q = Queenstown ; S = Southampton)

4 variables explicatives quantitatives :
ÂGE : âge du passager
SIBS : Nombre de frères et sœurs / épouses à bord
PARCH : Nombre de parents / enfants à bord
FARE : Tarif pour le passager

But de ce tutoriel

Le but ici est de prédire la variable qualitative Y SURVIVED. Pour cela nous allons utiliser la fonction Easy Fit afin de générer plusieurs modèles de classification et sélectionner le meilleur modèle adapté à ces données. Nous appliquerons ensuite le modèle sélectionné sur un nouvel échantillon afin de prédire les valeurs de nouvelles observations.

Paramétrer la boîte de dialogue de Easy Fit

Une fois XLSTAT lancé, sélectionnez le menu XLSTAT / XLSTA.ai / Easy Fit.

Menu Easy fit dans XLSTAT
La boîte de dialogue Easy Fit apparaît.

Onglet général de la boîte de dialogue Easy Fit dans XLSTAT
On choisit le type de variable à prédire : dans notre cas Y est qualitative. Puis on sélectionne la colonne A contenant la variable SURVIVED que l’on souhaite prédire.

On choisit ensuite les variables explicatives. Ici, nous avons des variables explicatives quantitatives (colonnes F, G et H) et des variables explicatives qualitatives (colonnes B, C et D).

La fonction Easy Fit vous propose automatiquement d’appliquer 5 modèles différents :

Régression logistique
Forêts aléatoires
K plus proches voisins
Machine à vecteurs de support (SVM)
Analyse factorielle discriminante

Une fois que vous avez cliqué sur le bouton OK, les calculs commencent puis les résultats sont affichés.

Interpréter les résultats de Easy Fit

Les résultats de Easy Fit sont toujours structurés de la même manière.

Dans un premier temps on vous explique que les données ont été séparées et qu’un échantillon d’apprentissage contenant 20% des données a été sélectionné automatiquement pour valider les modèles. Ensuite, un tableau récapitulatif contenant les mesures de qualité de chacun des modèles générés est affiché.

Tableau des résultats généré par Easy Fit
On voit dans cet exemple que le meilleur modèle sur ce jeu de données est la régression logistique. En effet, ce modèle donne le plus faible nombre d’observations mal classées.

Enfin les résultats synthétiques de chacun des modèles sont affichés. Au début des résultats de chacun des modèles, on retrouve les boutons suivants :

Boutons permettant de relancer la méthode ou de faire des prédictions avec Easy fit dans XLSTAT
Le premier bouton vous permet de relancer automatiquement la boîte de dialogue préremplie associée à la méthode complète. Cela peut être très utile si vous souhaitez obtenir plus de résultats que les résultats synthétiques générés avec Easy Fit.

Le second bouton vous permet de faire des prédictions avec le modèle choisi sur des nouvelles observations n’ayant pas servi à l’apprentissage du modèle ni à sa validation. Lorsque vous cliquez sur ce bouton, la boîte de dialogue suivante apparaît :

Boite de dialogue de Easy Predict dans XLSTAT
On sélectionne ici les mêmes variables explicatives mais sur un nouvel échantillon afin de prédire si des nouveaux passagers vont survivre. Une fois que vous avez cliqué sur le bouton OK, les calculs commencent puis les résultats sont affichés.

Les résultats de la prédiction avec la fonction Easy Predict sont affichés ci-dessous :

Résultats retournés par Easy Predict in XLSTAT
Conclusion
Nous avons vu au travers de ce tutoriel comment utiliser la fonction Easy Fit pour générer plusieurs modèles prédictifs de classification sur un même jeu de données. Les résultats synthétiques obtenus permettent rapidement de juger de la qualité du modèle. De plus, l’ajout de boutons interactifs permet d’aller plus loin en relançant l’analyse complète mais également d’appliquer le modèle choisi sur un nouvel échantillon de prédiction n’ayant pas servi à l’apprentissage du modèle ni à sa validation.

Ce tutoriel a été fait sur un exemple de classification (cas où la variable Y à prédire est qualitative) mais les fonctions Easy Fit et Easy Pred peuvent très bien être utilisées sur un problème de régression (cas où la variable Y à prédire est quantitative).

Cet article vous a t-il été utile ?