Aller au contenu principal

Discrétiser une variable continue dans Excel

Ce tutoriel vous aidera à discrétiser une variable continue en fonction de différentes méthodes, dans Excel avec XLSTAT.

Jeu de données pour discrétiser une variable continue et but de ce tutoriel

Les données correspondent à un échantillon de patients avec des informations telles que leur poid et taille ainsi que leur indexe de masse corporel (BMI).

Dans cet exemple on veut regrouper les patients par groupe de BMI.

Paramétrer la discrétisation d'une variable continue

Une fois XLSTAT lancé, cliquez sur l’icône Préparation des données et choisissez la fonction Discrétisation ou dans la barre d'outils Préparation des données sélectionnez l'icone Discrétisation (ci-dessous).

barDiscretization_fr.png

Une fois le bouton cliqué, la boîte de dialogue apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel, elles correspondent à la colonne "BMI" (colonne D).

Cochez l'option Libellés des Variables comme la sélection contient le nom de la variable (BMI).

Cochez aussi l'option Libellés des Observations et sélectionnez le "noms des patients" (colonne A).

Il y a plusieurs façons de grouper les patients :

  • Amplitude constante : choisissez cette méthode pour créer des classes de même amplitude.
  • Intervalles : choisissez cette méthode pour créer un nombre donné d'intervalles de même amplitude.
  • Effectifs égaux : choisissez cette méthode pour que les classes créées comprennent toutes le même nombre d'observations (dans la mesure du possible).
  • Automatique (Fisher) : choisissez cette méthode pour créer les classes en utilisant l'algorithme de Fisher.
  • Automatique (k-means) : choisissez cette méthode pour créer les intervalles en utilisant l'algorithme k-means.
  • Intervalles (définis par l'utilisateur) : choisissez cette méthode pour sélectionner une colonne contenant en ordre croissant la borne inférieure du premier intervalle, et la borne supérieure de tous les intervalles.
  • 80-20 : choisissez cette méthode pour créer deux classes, la première comprenant les 80 premiers % de la série, cette dernière étant classée en ordre croissant, la seconde contenant les 20% restant.
  • 20-80 : choisissez cette méthode pour créer deux classes, la première comprenant les 20 premiers % de la série, cette dernière étant classée en ordre croissant, la seconde contenant les 80% restant.
  • 80-15-5 (ABC) : choisissez cette méthode pour créer trois classes, la première comprenant les 80 premiers % de la série, cette dernière étant classée en ordre croissant, la seconde contenant les 15% suivant, et la troisième contenant les 5% restant. Cette classification est parfois appelées ABC.
  • 5-15-80 : choisissez cette méthode pour créer trois classes, la première comprenant les 5 premiers % de la série, cette dernière étant classée en ordre croissant, la seconde contenant les 15% suivant, et la troisième contenant les 80% restant.

Nous choisissons ici l'option Intervalles (définis par l'utilisateur). Il faut alors sélectionner les bornes correspondant aux limites de chaque classe de BMI.

Une colonne a été préparée à cet effet.

pls software

Ensuite allez à l'onglet Sorties et sélectionnez les barycentres, les Résultats par classe et les Résultats par objets.

acp logiciel

Enfin allez à l'onglet Graphiques et choisissez un histogramme avec des barres et en fréquence.

analyse de données logiciel

Quand vous avez fini les sélections cliquez sur le bouton OK.

Interpréter les résultats de la discrétisation d'une variable continue

Les résultats sont affichés dans une nouvelle feuille nommée "Discétisation".

Le premier résultat est un histogramme. Remarquez que la taille des barres correspond à la taille des classes.

En dessous vous avez un tableau qui présente la répartition des patients dans les différentes classes. Notez que la plupart sont dans la catégorie 3 qui indique un poids normal.

acp logiciel

Ensuite vous avez le barycentre des classes qui ne correspond pas forcément au centre de chaque classe.

Enfin vous avez un tableau qui correspond à l'attribution des patients aux différentes classes.

statistical software

La vidéo ci-dessous vous montre comment réaliser ce tutoriel et donne des explications sur les différentes options et les résultats obtenus.

Cet article vous a t-il été utile ?

  • Oui
  • Non