Solution d'analyse de données

Régression PLS (moindres carrées partiels) dans Excel

03/12/2018

Jeu de données pour réaliser une régression par les moindres carrées partiels - PLS

Ce tutoriel utilise des données présentées dans l'article [Tenenhaus, M., Pagès, J., Ambroisine L. and & Guinot, C. (2005). PLS methodology for studying relationships between hedonic judgements and product characteristics. Food Quality an Preference. 16, 4, pp 315-325]. Par ailleurs il est recommandé aux utilisateurs francophones de XLSTAT d'acquérir le livre très complet de Michel Tenenhaus sur la régression PLS :

plstenenhaus.jpgLa régression PLS : théorie et pratique.

Les données utilisées dans l'article correspondent à 6 jus d'orange évalués suivant 16 descripteurs physico-chimiques, et notés par 96 juges.

L'utilisation de la régression PLS va permettre d'obtenir une cartographie simultanée des juges, des descripteurs et des produits, puis d'analyser juge par juge quelles caractéristiques sous-tendent les préférences exprimées.

Un classeur Excel comprenant à la fois les données utilisées dans cet exemple et les résultats obtenus peut être téléchargé en cliquant sur le bouton ci-dessous :
Télécharger les données  

Paramétrer une régression par les moindres carrées partiels - PLS

Pour activer la boîte de dialogue de la régression PLS, lancez XLSTAT, puis sélectionnez la commande Régression PLS de la barre d'outils Modélisation des données.

Une fois que vous avez cliqué sur le bouton, la boîte de dialogue apparaît. Sélectionnez au niveau des Variables dépendantes (les "Y" du modèle), les notes données par les juges.

Ce sont en effet les données que l'on veut expliquer au travers des Variables explicatives quantitatives (les "X" du modèle) que sont les descripteurs des jus d'orange.

Puis cliquez sur l'onglet Options et fixer le nombre de composantes à 4 dans les conditions d'arrêt.

Enfin, dans l'onglet Graphiques, l'option Etiquettes colorées a été activée afin de rendre les graphiques plus lisibles, et l'option vecteurs a été désactivée afin de ne pas alourdir inutilement les graphiques.



Les calculs, extrêmement rapides, commencent lorsque l'on a appuyé sur OK.

L'affichage des résultats est interrompu pour vous permettre de choisir les axes de représentation des résultats.

Il suffit de cliquer sur Terminer pour que les graphiques concernent uniquement les deux premiers axes.

L'affichage des résultats prend ensuite quelques secondes du fait de la présence de 96 variables dépendantes et des très nombreux tableaux et graphiques affichés.

Interpréter les résultats d'une régression par les moindres carrées partiels - PLS

Après quelques statistiques de base sur les différentes variables sélectionnées (les variables explicatives sont en noir, et les variables dépendantes en bleu) et la matrice de corrélations correspondante, les résultats propres à la régression PLS sont affichés.

Le premier tableau et le graphique correspondant permettent de visualiser la qualité de la régression PLS en fonction du nombre de composantes retenues.

L'indice Q² cumulé est une mesure globale de la qualité de l'ajustement et de la qualité prédictive des 96 modèles. XLSTAT a retenu 4 composantes. On voit que l'indice Q² reste faible. Cela suggère que la qualité de l'ajustement peut être très variable en fonction des juges.

Les R²Y cum et R²X cum qui correspondent aux corrélations entre les composantes et les variables de départ sont proches de un dès la quatrième composante, ce qui indique que les composantes sont à la fois bien représentatives des X et des Y.

Le premier graphique des corrélations permet de visualiser sur les deux premières composantes générées par la régression PLS les corrélations entre X et les Y du modèle.

pls3f.gif

On note que pour quelques juges au centre du graphique les corrélations sont très faibles. En se reportant au tableau, on voit par exemple que le juge 54 n'est lié qu'à la composante t4, globalement peu corrélée avec les variables explicatives.

En ce qui concerne les variables explicatives, on note que seule la vitamine C est mal représentée sur le graphique. Cette dernière est donc globalement faiblement explicative des préférence des juges, ce qui se comprend bien puisque elle n'a pas d'implication directe sur les critères gustatifs qui influencent les juges.

On notera les fortes corrélations positives entre le fructose et le glucose, entre les pH, et la corrélation bien entendu négative entre les pH d'une part, et l'acide citrique et le titre d'autre part. On voit apparaître sur ce graphique une grande différence de préférences entre les juges.

La carte superposant les variables dépendantes sur les vecteurs c et les variables explicatives sur les vecteurs w* permet de visualiser la relation globale entre les variables, sachant que les w* sont représentatifs du poids des variables dans les modèles.

pls4f.gif

Si l'on projète une variable explicative sur le vecteur d'une variable dépendante (les vecteurs sont affichés s'il y a moins de 50 variables dépendantes et si l'option vecteurs est activée), on a une idée de son poids dans le modèle concernant cette même variable dépendante.

Un tableau donne les coordonnées des produits sur les composantes t. Le graphique correspondant sur les axes t1 et t2 est ensuite affiché. On notera que les produits sont bien distingués.

Un dernier graphique de corrélations permet de superposer les produits sur le graphique des corrélations précédemment affiché. Dans la légende, "Obs" a été remplacé manuellement par "Jus", en modifiant l'intitulé de la série dans la barre de formule Excel, après avoir cliqué sur la série pour la sélectionner. Comme presque toujours avec XLSTAT, les graphiques sont des graphiques Excel totalement modifiables.

pls6f.gif

Dans leur article précédemment cité, Tenenhaus et al. interprètent ce graphique en détail. Ils en déduisent notamment l'existence de 4 groupes bien identifiés de juges, sur lesquels il conseillent de réaliser des analyses séparées. Ils obtiennent alors des Q² et R² cumulés plus élevés. Pour le premier groupe identifié ils obtiennent un R²Y de 0.63 au lieu du 0.53 observé ici.

Deux tableaux fournissant des résultats pour les composantes u et u~ sont ensuite affichés. Un graphique permet de visualiser les observations (ici les jus d'orange) dans l'espace des u~.

Les tableaux qui suivent permettent de voir l'évolution des indices Q² et Q² cumulé en fonction du nombre de composantes. pour l'ensemble des variables dépendantes. On remarque que pour plusieurs variables que le maximum du Q² est atteint avec une ou deux composantes (voir par exemple J5, J6, J7).

Une série de tableaux présentant les R² pour chacune des variables d'entrée avec les composantes t est ensuite optionnellement affichée. L'option n'étant pas activée par défaut, les tableaux ne sont pas pris en compte dans ce tutoriel.

Le tableau suivant présente les VIP (Variable Importance for the Projection) pour chacune des variables explicatives, sur chacun des modèles avec un nombre croissant de composantes. Cela permet d'identifier rapidement quelles sont les variables explicatives les plus importantes sur l'ensemble des modèles. Sur la première composante, la Vitamine C, le Pouvoir Sucrant, l'Intensité Odeur et l'Intensité Goût apparaissent comme étant peu influentes.

Le tableau des paramètres des modèles correspondant à chacune des variables dépendantes est ensuite affiché. Les équations sont ensuite affichées afin de faciliter une éventuelle utilisateur ultérieure.

Pour chaque modèle sont ensuite affichés le tableau des coefficients d'ajustement, le tableau des coefficients normalisés (correspondant aux coefficients bêta de la régression linéaire classique) et enfin le tableau des prédictions et résidus. L'analyse du modèle correspondant au juge J1 nous permet de conclure à une bonne qualité du modèle, le R² vallant 0.88. Cependant, le nombre de degrés de liberté est faible (DDL =1), et on risque un sur-ajustement du modèle. Cela tend à être confirmé par le fait que pour l'ensemble des coefficients normalisés, les intervalles de confiance comprennent la valeur 0. Etant donné que le Q² cumulé diminue dès la troisième composante (cf tableau des Q²), il est fort probable qu'une qualité similaire aurait été atteinte avec seulement deux composantes.

Nous avons donc réalisé une nouvelle régression PLS, en ne sélectionnant que le juge 1, et en forçant XLSTAT à ne prendre en compte que deux composantes. Les résultats sont disponibles sur la feuille PLS2. On obtient alors des résultats plus riches. Le graphique ci-dessous correspond aux coefficients normalisés pour le modèle avec 2 composantes.

On voit ici que seuls les coefficients de l'intensité d'odeur et la typicité d'odeur sont significatifs. Le tableau des prédictions et résidus permet de vérifier que les notes du juge 1 sont très bien reproduites par le juge 1.

Enfin le tableau des DModX et DModY et les graphiques correspondant permettent d'identifier rapidement des observations qui constitueraient d'éventuels outliers (valeurs extrêmes). Ici, aucune valeur anormale n'a été détectée. Toutes les valeurs sont en effet inférieures aux DCritX et DCritY.

Nous contacter

Envoyer un email au service commercial

Contacter notre équipe de support technique : support@xlstat.com

https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283