Aller au contenu principal

Tableau croisé intelligent avec Excel

Données pour créer un tableau croisé intelligent

Ces données ont été recueillies pour le recensement de 1994 par le American Census Bureau (http://www.census.gov).

Chaque observation est décrite par 8 variables, tel que l'âge, la profession, le niveau d'éducation, le sexe, etc. Le nombre de données a été réduit à 8000 afin de limiter la taille du fichier à télécharger.

La variable "poids" (qui permet de redresser l'enquête) n'est pas utilisée dans cet exemple.

Le but est ici de construire un tableau croisé dynamique afin de comprendre quels facteurs, et croisements de facteurs, ont le plus d'influence sur le fait qu'un individu gagne plus de 50k$ ou non (la variable correspondante se trouve dans la colonne J). XLSTAT-Pivot permet de répondre rapidement et simplement à cette question.

Paramétrer le tableau croisé intelligent

Une fois XLSTAT ouvert, sélectionnez la commande XLSTAT / Description des données / XLSTAT-Pivot, ou cliquez sur le bouton équivalent du menu Description des données (voir ci-dessous).

Une fois que vous avez cliqué sur le bouton, la boîte de dialogue XLSTAT-Pivot apparaît. Sélectionnez alors les données sur la feuille Excel. Comme la première ligne est une ligne de libellés de variables que les lignes suivantes, il est possible d'utiliser le mode de sélection accélérée d'XLSTAT : sélectionnez directement les colonnes en cliquant sur les lettres correspondantes. Sélectionnez ensuite l'option Libellés des variables puisque la première ligne contient le nom des variables. Comme la variable à expliquer est de type qualitative, l'option type de variable qualitative est sélectionnée. Il faut alors sélectionner une modalité cible ; dans cet exemple, il s'agit de ">50k$". On sélectionne ensuite les varaibles exlpicatives quantitatives et qualitatives dans les cases prévues à cet effet.

Boite de dialogue Pivot général

Ensuite cliquez sur Okafin que XLSTAT-Pivot lance les calculs les contributoins et les discrétisations de chaque variable sont déterminées en utilisant les arbres de classifiaction et l'algorithme CHAID. Une fois les calculs terminés, la boîte de dialogue finale donne la possibilité de créer un tableau croisé dynamique sur mesure tout en donnant la contribution de chaque variable dans l'explication de la variable réponse.

Sélectionnez les variables que vous voulez utiliser dans le tableau croisé. La contribution des variables au modèle est affichée à côté du nom de la variable (plus la contribution est élevée, plus elle apporte de l'information au modèle). Une fois que vous avez choisi les variables (dans l'exemple nous avons gardé les options par défaut), cliquez sur Continuer.

Boite de dialogue Pivot sélection

Interpréter les résultats d'un tableau croisé intelligent

Une nouvelle feuille de calcul est créée. Y sont affichés les discrétisations effectués, l'histogramme des contributions et le tableau croisé dynamique.

Graphique des contributions Pivot

Le graphique permet de confirmer que les variables qui ont l'impact le plus important sur le revenu sont la situation de famille et le nombre d'années d'études.

Dans les cases du tableau croisé dynamique sont affichées 4 valeurs :

  • Moyenne cible : c'est la moyenne de la variable cible sur la sous-population correspondant à la combinaison dans le cas d'une variable continue et le pourcentage d'occurrence de la modalité cible de la variable réponse lorsque celle-ci est qualitative ;
  • Taille cible : comptage des occurrences de la modalité cible de la variable réponse dans le cas d'une variable binaire ;
  • Taille population % : pourcentage de la population totale qui correspondant à la combinaison ;
  • Taille Population : effectif de la population correspondant à la combinaison.

Le tableau croisé obtenu est le suivant :

Tableau pivot

En analysant le tableau croisé, il est possible de déterminer quelles sont les combinaisons de facteurs qui font qu'un individu gagne plus de 50k$.

Remarque : à partir du tableau croisé obtenu, il peut être intéressant de pousser plus loin l'analyse avec une analyse des correspondances simples ou multiples, afin de déterminer les interrelations entre les catégories des différentes variables.

Cet article vous a t-il été utile ?

  • Oui
  • Non