Solution d'analyse de données

Coefficient de corrélation de Pearson dans Excel

20/04/2018

Ce tutoriel explique comment calculer et interpréter le coefficient de corrélation de Pearson pour des variables quantitatives sous Excel en utilisant XLSTAT. Etes-vous sûr d'avoir choisi un outil statistique approprié ? Cliquez ici pour accéder à notre guide sur le choix de test statistique.

Jeu de données pour calculer le coefficient de corrélation de Pearson

Un classeur Excel comprenant à la fois les données utilisées dans cet exemple et les résultats obtenus peut être téléchargé en cliquant ici :
Télécharger les données

Les données représentent un échantillon de clients d’une boutique de vente de chaussures en ligne décrits par différentes variables (ex. montant facture, pointure,…).

But de ce tutoriel

L’objectif est d’étudier les corrélations entre le montant dépensé et les diverses caractéristiques des clients. Nos données sont quantitatives continues. Une option est donc de nous orienter vers le coefficient de corrélation de Pearson. Un coefficient de corrélation mesure la force de la liaison (positive ou négative) qui peut exister entre deux variables quantitatives.

Nous testerons également la significativité des corrélations et générer les sorties suivantes :
  • Une matrice de corrélation pour visualiser l’ensemble de coefficients de corrélations sous forme d’une matrice,
  • Une matrice des nuages de points pour afficher les nuages de points pour toutes les combinaisons possibles de variables deux à deux.

Paramétrer le calcul du coefficient de corrélation de Pearson avec XLSTAT

1. Une fois XLSTAT lancé, sélectionnez la commande Tests de Corrélation/Association / Tests de corrélation :

XLSTAT fonction pour effectuer des tests de corrélation
2. Dans l’onglet Général de la boîte de dialogue affichée, sélectionnez les colonnes A-E dans le champ Observations/Variables quantitatives. Ensuite, choisissez Pearson comme type de corrélation à utiliser pour les calculs. Cochez également l'option Libellés des variables puisque le nom des variables est inclus dans la sélection.


 3. Dans l’onglet Sorties, activez les options suivantes :
Une p-value calculée pour un coefficient de corrélation permet de tester l’hypothèse nulle selon laquelle le coefficient de corrélation est égal à zéro. Le niveau de significativité par défaut est 5%. Cette valeur est modifiable dans l’onglet général.

Les coefficients de détermination correspondent aux carrés des coefficients de corrélations et reflètent la force des corrélations (varient entre 0 et 1).

Avec l'option Filtrer les variables, nous choissisons d'afficher uniquement les 4 variables dont la somme des R2 avec toutes les autres variables est maximale.

Pour le tri des variables, nous allons utilser la méthode BEA (Bond Energy Algorithm) qui applique une permutation des lignes et des colonnes d’une matrice carrée afin que les variables présentant des corrélations similaires soient regroupées.

4. Dans l’onglet Graphiques, activez les options suivantes :

Dans l'onglet Image, nous pouvons choisir de représenter la matrice de corrélation sous la forme d’une image . Cette option peut être très utile lorsque vous disposez d’un grand nombre de variables afin de voir rapidement quelles variables présentent la même structure.

Interpréter les résultats du calcul du coefficient de corrélation de Pearson

La matrice de corrélartion suivie par les intervalles de confiance (95%)  sont affichés dans les tableaux ci-dessous :



Les coefficients de corrélation varient entre -1 et 1. Une valeur positive indique une corrélation positive. Une valeur négative reflète une corrélation négative. Une valeur proche de zéro reflète l’absence d'une corrélation linéaire.

Par exemple, la paire Facture et Taille est caractérisée par une corrélation positive et forte (0,924). A contrario, nous pouvons conclure que plus les clients passent du temps sur le site moins ils dépensent d'argent (-0,914). 

A noter que la variable Pointure a été exclue par les sorties puisque sa somme des R2 avec toutes les autres variables est minimale.
Tous les coefficients sont significatifs au seuil de significativité de 0,05 (p < 0,05). Cela signifie que le risque de rejeter l'hypothèse nulle alors qu’elle est vraie est inférieur à 5%. 


La carte de corrélation au-dessus s'appuie sur une échelle de couleurs allant du bleu au rouge (échelle froid-chaud) pour l'affichage des corrélations. La couleur bleue correspond à une corrélation négative proche de -1 (ex : Temps passé sur le site vs Facture) et la couleur rouge correspond à une corrélation positive proche de 1 (ex : Taille vs Facture). 

Matrice de graphiques
La matrice de graphiques au-dessus affiche un histogramme par variable (sur la diagonale) et un nuage de points pour toutes les paires possibles de variables.

L’histogramme révèle les caractéristiques de la distribution d’une variable. Le nuage de points reflète le signe et la force d’une corrélation. Pour le signe, nous pouvons utiliser la couleur des points ainsi que la pente de la droite de régression. Pour la force, il suffit d'observer la dispersion des points autour la droite.  Par exemple, nous pouvons suggérer que la Pointure a une très faible relation linéaire avec les autres attributs (dernière colonne de la matrice).

Aller plus loin : explorer des variables quantitatives avec une Analyse en Composantes Principales

L’analyse en Composantes Principales (ACP) est une méthode d’analyse multivariée qui permet d'explorer facilement une matrice de corrélations. Elle permet également de mieux comprendre la structure de nos données et la relation entre les observations (clients) et les variables. Un avantage de l'ACP est la représentation graphique synthétique des résultats (cercle de corrélation, biplot…). 
1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283