Solution d'analyse de données

Caractérisation de variables avec Excel

20/10/2017

Jeu de données pour la Caractérisation de variables

Une feuille Excel contenant les données et les résultats de cet exemple peut être téléchargée en cliquant ici.

Les données ont été récoltées dans le cadre d'une surveillance de la population angevine : le CHU d'Angers a étudié des hommes et des femmes pour déterminer leur aptitude à ronfler. Le fichier contient un échantillon de 100 patients interrogés entre 2000 et 2002.

But de ce tutoriel sur la Caractérisation de variables

En utilisant la caractérisation de variables, notre but est d'étudier les liens qui peuvent exister entre les différentes variables que nous avons à notre disposition ici, à savoir : l’Age, le Poids, la Taille, le Sexe, la consommation de Tabac et d’Alcool et le diagnostic de Ronflement.

En particulier, dans ce tutoriel, nous allons dans un premier temps nous concentrer sur l’étude de la dépendance entre les 2 variables nominales Sexe et Tabac, puis sur la corrélation entre les variables continues Taille et Poids.

 Ensuite, on sortira de ce cadre classique pour nous intéresser à la caractérisation de la modalité  1 de la variable nominale Ronfle (groupe des individus qui ronflent) par les modalités des variables nominales Sexe et Tabac puis par les variables continues Age, Poids, Alcool et Taille.

L’objectif de cette dernière étude est de comprendre ce qui distingue les individus qui ronflent à partir d’une série de descripteurs. Pour cela, une procédure simple consiste à comparer les valeurs des paramètres des variables dans la population mère et dans la sous-population. Concrètement, il s’agit de comparer les valeurs calculées dans l’échantillon initial et dans le sous échantillon correspondant au groupe. Lorsque la variable est quantitative, nous comparons les moyennes ; lorsqu’elle est qualitative, nous comparons les proportions.

Paramétrer la Caractérisation de variables

Une fois XLSTAT lancé, choisissez la commande XLSTAT / Description des données / Caractérisation de variables (voir ci-dessous).

 menu

Une fois le bouton cliqué, la boîte de dialogue correspondant à la Caractérisation de variables apparaît.

Vous pouvez alors sélectionner les données sur la feuille Excel.

1) Dépendance entre  Consommation de Tabac et Sexe

L’élément à caractériser correspond à la variable qualitative Tabac.

L’élément caractérisant correspond à la variable qualitative Sexe.

L'option Libellés des variables est laissée activée car la première ligne des colonnes comprend le nom des variables.                                                                                               

Les options des autres onglets sont laissées à leur valeur par défaut.

boite de dialogue

Une fois que vous avez cliqué sur le bouton OK, les calculs commencent puis les résultats sont affichés.

Interpréter les résultats de cette première étude

Voici les résultats affichés par XLSTAT :

 boite de dialogue

La p-value est de 0,004 < (=0,05). Ainsi, l’hypothèse nulle d’indépendance peut être rejetée ce qui signifie qu’il existe une dépendance significative entre la Consommation de tabac et le Sexe dans cet échantillon.

2) Corrélation entre les variables continues Taille et Poids

Dans cette seconde partie, nous étudions succinctement le lien entre taille et poids chez les individus de l’échantillon.

L’élément à caractériser correspond à la variable qualitative Poids.

L’élément caractérisant correspond à la variable qualitative Taille.

L'option Libellés des variables est laissée activée car la première ligne des colonnes comprend le nom des variables.

Les options des autres onglets sont laissées à leur valeur par défaut.

Interpréter les résultats de cette deuxième étude 

XLSTAT fournit le résultat suivant :

 resultats 2

La p-value est inférieure à 0,0001 (coefficient de corrélation égal à 0,927). Ceci signifie qu’il existe une forte corrélation entre le Poids et la Taille dans cet échantillon.

3) Caractérisation de la modalité Ronfle=1 par les modalités des variables nominales Sexe et Tabac puis par les variables continues Poids, Taille, Age et Alcool

Dans cette dernière partie, on cherche quelles sont les modalités et les variables continues qui caractérisent le mieux le groupe des individus qui ronflent.

L’élément à caractériser correspond à la modalité Ronfle=1.

Les éléments caractérisants correspondent d’abord aux modalités : Sexe=0, Sexe=1, Tabac=0, Tabac=1 puis aux variables continues Poids, Taille, Age et Alcool.

L'option Libellés des variables est laissée activée car la première ligne des colonnes comprend le nom des variables.

Les options des autres onglets sont laissées à leur valeur par défaut.

Interpréter les résultats de cette troisième étude 

Le premier graphique correspond aux modalités caractérisantes :

resultats 3

Sur ce premier tableau, on remarque que la modalité qui caractérise le mieux le fait de ronfler au sein de cet échantillon est le fait d’être un homme (Sexe=0). Paradoxalement, dans cet échantillon, chez les personnes qui ronflent, les non-fumeurs sont sur-représentés.

Le second graphique correspond aux variables continues caractérisantes :

resultats 4

Sur ce second graphique, on observe que le fait de ronfler est davantage présent chez les personnes plus âgées (que la moyenne dans cet échantillon) et chez les personnes qui ont une consommation d’alcool plus importante (que la moyenne, toujours dans cet échantillon).

Conclusion pour cette Caractérisation de Variables

En conclusion, dans cet échantillon, le « ronfleur-type » est l’homme de 56 ans absorbant en moyenne une quantité d’alcool équivalente à 4 verres de vin rouge par jour.

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283