Comparaison d’algorithmes de Machine Learning supervisé
Les deux grilles suivantes comparent les principaux algorithmes de Machine Learning supervisé disponibles dans XLSTAT. Une grille est destinée aux problématiques de classification (Y qualitative), l'autre aux problématiques de régression (Y quantitative). Consulter cet article pour une introduction aux principes de Machine Learning supervisé.
Les algorithmes sont comparés selon différents critères
- Fonctionnent-ils avec plus de variables que d'observations ?
- S'adaptent-ils facilement aux relations non linéaires entre les prédicteurs et Y ?
- L'algorithme peut-il être utilisé à des fins explicatives ? En d'autres termes, peut-il être utilisé pour décrire l’influence relative des prédicteurs sur Y ?
- Peuvent-ils détecter et apprendre automatiquement les interactions entre les prédicteurs ?
Algorithmes de classification
Algorithme | Fonctionne avec plus de variables que d'observations ? | S'adapte à des situations non-linéaires ? | Intelligibilité explicative | Apprend les interactions pertinentes parmi les prédicteurs ? | Hyperparamètres principaux | Menu XLSTAT | Remarques |
---|---|---|---|---|---|---|---|
Régression logistique | Non | - | +++ | Non | Aucun | Modélisation des données | Bonne intelligibilité explicative (coefficients log-odds et p-values) |
Régression pénalisée (Ridge, Lasso, Elastic Net) | Oui | - | ++ | Non | lambda, alpha | XLSTAT-R, glmnet | Sélectionner les familles binomiale ou multinomiale |
Analyse Discriminante linéaire | Non | - | + | Non | Aucun | Analyse des données / Analyse Factorielle Discriminante ; Onglet options : activer égalité des matrices de covariance | |
Analyse Discriminante quadratique | Non | + | + | Non | Aucun | Analyse des données / Analyse Factorielle Discriminante ; Onglet options : désactiver égalité des matrices de covariance | |
Analyse Discriminante par les Moindres Carrés Partiels (PLS-DA) | Oui | - | + | Non | Nombre de composantes | Modélisation des données | Typiquement utilisée lorsqu'il y a peu d'observations et beaucoup de variables (chémométrie) |
Modèle Additif Généralisé (GAM) | Non | ++ | + | Non | Méthode, ajouter une pénalité supplémentaire | XLSTAT-R, gam | |
Classifieur Bayésien Naïf | Oui | - | - | Non | Paramètre de lissage | Machine Learning | Calculs rapides sur jeux de données volumineux |
Machines à Vecteurs de Support (SVM) | Oui | ++ (noyau RBF recommandé pour les situations non-linéaires) | - | Non | C, noyau et hyperparamètres propres aux noyaux | Machine Learning | Calculs intensifs sur jeux de données volumineux |
K Plus Proches Voisins (KNN) | Oui | ++ | - | Non | Nombre de voisins | Machine Learning | |
Arbres de Classification (C&RT) | Oui | ++ | ++ | Oui | CP | Machine Learning | Ramifications binaires à chaque noeud |
Arbres de Classification (CHAID) | Oui | ++ | ++ | Oui | CP | Machine Learning | Ramifications multiples à chaque noeud |
Forêts Aléatoires de Classification (Random Forests) | Oui | ++ | + | Oui | CP, mtry | Machine Learning | Meilleure performance prédictive que celle des arbres de classification |
Réseaux de Neurones Artificiels (ANN) | Oui | ++ | - | Oui | Architecture du réseau, fonction d'erreur, fonctions d'activation | XLSTAT-R, neuralnet | Nécessite expertise avancée |
Algorithmes de régression
Algorithme | Fonctionne avec plus de variables que d'observations ? | S'adapte à des situations non-linéaires ? | Intelligibilité explicative | Apprend les interactions pertinentes parmi les prédicteurs ? | Hyperparamètres principaux | Menu XLSTAT | Remarques |
---|---|---|---|---|---|---|---|
Régression linéaire | Non | - | +++ | Non | Aucun | Modélisation des données | Bonne intelligibilité explicative (coefficients de pentes et p-values) |
Régression pénalisée (Ridge, Lasso, Elastic Net) | Oui | - | ++ | Non | Lambda, alpha | XLSTAT-R, glmnet | Sélectionner famille Gaussienne |
Régression quantile | Oui | - | + | Non | Aucun | Modélisation des données | |
Modèle Additif Généralisé (GAM) | Non | ++ | + | Non | Méthode, ajouter une pénalité supplémentaire | XLSTAT-R, gam | |
Régression PLS (Moindres Carrés Partiels) | Oui | - | + | Non | Nombre de composantes | Modélisation des données | Typiquement utilisée lorsqu'il y a peu d'observations et beaucoup de variables (chémométrie) |
Régression sur les Composantes Principales (PCR) | Oui | - | + | Non | Standardisation des variables | Modélisation des données / Régression PLS | |
K Plus Proches Voisins (KNN) | Oui | ++ | - | Non | Nombre de voisins | Machine Learning | |
Arbres de Régression (C&RT) | Oui | ++ | ++ | Oui | CP | Machine Learning | Ramifications binaires à chaque noeud |
Arbres de Régression (CHAID) | Oui | ++ | ++ | Oui | CP | Machine Learning | Ramifications multiples à chaque noeud |
Forêts Aléatoires de Régression (Random Forests) | Oui | ++ | + | Oui | CP, mtry | Machine Learning | Meilleure performance prédictive que celle des arbres de régression |
Réseaux de Neurones Artificiels (ANN) | Oui | ++ | - | Oui | Architecture du réseau, fonction d'erreur, fonctions d'activation | XLSTAT-R, neuralnet | Nécessite expertise avancée |
Cet article vous a t-il été utile ?
- Oui
- Non