Solution d'analyse de données

Boîtes à moustache - box plots - avec Excel

20/10/2017

Jeu de données pour générer un box plot /  une boîte à moustache (box plot)

Un classeur Excel comprenant à la fois les données utilisées dans cet exemple et les résultats obtenus peut être téléchargé en cliquant sur le bouton ci-dessous :
Télécharger les données

Les données correspondent à un échantillon de 150 fleurs (Iris) décrites par cinq variables (quatre numériques et une qualitative). Les fleurs appartiennent à 3 espèces différentes. Ce jeu de données bien connu, a été utilisé par Fisher pour illustrer l'analyse discriminante. Nous avons choisi d'analyser la variable Long. Sépales pour vérifier visuellement les différences entre espèces, en utilisant des boîtes à moustaches (box plots).

Les représentations en moyennes ± barres d'erreur symétriques sont très courantes, alors qu'elles ne sont fiables que si les données sont normales. En revanche, étant basées sur des quantiles, les boîtes à moustache peuvent être utilisées dans un plus grand nombre de cas. Les boîtes à moustaches permettent notamment de vérifier si une distribution de données est symétrique ou pas, si des valeurs hors normes existent dans les données, ou encore la localisation approximative de la moyenne dans la distribution.

Générer un box plot / une boîte à moustache

Une fois XLSTAT lancé, choisissez la commande XLSTAT / Visualisation des données / Graphiques univariés.
XLSTAT commande pour générer une boite à moustaches

Une fois le bouton cliqué, la boîte de dialogue correspondant aux Statistiques descriptives apparaît.

Les données correspondant à la variable "Long. Sépales" sont sélectionnées avec la souris dans le champ Données quantitatives. Notez que pour un graphique en boîtes à moustaches, les données doivent être numériques.

La variable Espèce est choisie pour identifier les sous-échantillons (3 espèces de fleurs). L'option Libellés des échantillons est cochée parce que le nom des variables est inclus dans la sélection. L'option Feuille est choisie pour que l'affichage des résultats soit effectué sur une nouvelle feuille du même classeur.

Boîte de dialogue XLSTAT pour générer une boîte à moustache
Dans l'onglet Options, les options suivantes sont activées.

Boîte de dialogue XLSTAT pour générer une boîte à moustache
Les options standardiser ou remettre à l'échelle peuvent être utilisées pour comparer entre elles des variables distribuées sur des échelles différentes. Ce n'est pas le cas ici, car nous n'examinons qu'une seule variable.

L'intervalle de confiance n'intervient pas dans la construction des boîtes à moustaches. Nous ignorons donc cette option.

Dans l'onglet Sorties, vous pouvez sélectionner différentes statistiques numériques descriptives (moyenne, écart-type, variance, asymétrie, aplatissement, etc.) qui seront calculées automatiquement pour chaque sous-échantillon.

Dans l'onglet Graphiques (1) - graphiques relatifs aux données quantitatives - et dans le sous-onglet Types de graphiques, activez l'option Box plots.
Boîte de dialogue XLSTAT pour générer une boîte à moustache
Dans le sous-onglet Options, l'option Grouper les graphiques est activée pour que les trois box plots correspondant aux trois espèces d'iris soient affichés sur le même graphique.

Notez l'existence de nombreuses autres options d'affichage.

L'option Minimum/Maximum est activée pour que les minimums et maximums soient représentés sur les boîtes à moustaches.
Boîte de dialogue XLSTAT pour générer une boîte à moustache
L'option Minimum/Maximum est activée pour que les minimums et maximums soient représentés sur les boîtes à moustaches. Cliquez sur OK pour obtenir les résultats.

Interprétation du Box plot ou d'une boîte à moustache

Les résultats et les graphiques sont affichés dans une nouvelle feuille nommée "Desc". Le premier tableau correspond aux statistiques descriptives.

Tableau de statistiques descriptives
Ensuite, les boîtes à moustaches s'affichent:

Boîte à moustaches (boxplot) sous Excel avec XLSTAT

Une boîte est affichée par espèce.

Les croix rouges sont les moyennes. Les barres horizontales centrales sont les médianes. Les limites inférieure et supérieure des boîtes sont les premier et troisième quartiles, respectivement. 50% des données centrales se trouvent entre ces deux limites; 25% se trouvent au-dessus et 25% en-dessous.

Pour chaque boîte, les données situées respectivement en-dessous et au-dessus des extrémités inférieure et supérieure des moustaches peuvent être considérées comme hors-normes. Les points en bleu sont le minimum et maximum pour chaque espèce. La largeur horizontale des boîtes n'a pas de sens.

Il apparaît clairement que la variable "Long. Sépales" est différente en fonction des espèces. On observe une valeur extrême dans la catégorie 3. Elle est représentée par un "o" (cette valeur est aussi le minimum - il faut supprimer la série correspondant aux minima et maxima pour voir le "o").

Pour obtenir des informations complémentaires, veuillez visionner cette vidéo :

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283