Solution d'analyse de données

Comparer k proportions dans Excel

20/10/2017

Test paramétrique pour comparer k proportions

Une proportion permet de mesurer sur une échelle [0, 1], combien d'observations appartiennent à une modalité (ou catégorie) donnée, en comparaison avec la taille totale de l'échantillon étudié. Pour la calculer, on divise le nombre d'observations appartenant à la modalité à laquelle on s'intéresse par l'effectif total de l'échantillon.

Pour comparer k proportions, les méthodes statistiques requièrent que les tailles d'échantillon soient connues pour toutes les proportions. Les données en entrée doivent donc être d'une part, soit des proportions soit des nombres d'observations appartenant à la modalité d'intérêt, et d'autre part des tailles d'échantillon.

Jeu de données pour réaliser un test paramétrique de comparaison de k proportions

Une feuille Excel contenant les données et les résultats de cet exemple peut être téléchargée en cliquant ici.

Les données correspondent à 6 différentes séries de vis utilisées sur des voitures de rallye. Le nombre de vis ayant passé les tests de qualité pour chaque série est enregistré dans la colonne "Succès".

Le nombre de vis ne passant pas les tests est enregistré dans la colonne "Echec".

Notre but est de déterminer si la qualité des 6 séries de vis peut être considérée comme homogène ou non, puis, s'il y a une différence, d'identifier les séries qui sont significativement différentes des autres.

Paramétrer un test paramétrique de comparaison de k proportions

Une fois XLSTAT lancé, choisissez la commande XLSTAT / Tests paramétriques / Comparaison de k proportions ou cliquez sur le bouton Comparaison de k proportions de la barre d'outils Tests paramétriques.

barkpropf.gif

Une fois le bouton cliqué, la boîte de dialogue apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel.

Sélectionnez d'abord les données "Effectifs" qui correspondent ici aux "Succès", puis les "Tailles des échantillons" qui correspondent ici à la colonne "Total".

Les Libellés des observations sont aussi sélectionnés.

Tous les tests sont activés.

L'option Libellés des variables est activée car la première ligne des colonnes sélectionnées comprend un libellé.

kprop1f.gif

Les calculs commencent une fois que vous avez cliqué sur OK.

Interpréter les résultats d'un test paramétrique de comparaison de k proportions

Les premiers résultats affichés correspondent au test du Khi’². Le test du Khi’² est communément utilisé sur des tableaux de contingence (tableaux croisés) pour tester si les lignes et les colonnes sont indépendantes. Dans ce cas particulier où nous étudions un événement binaire (succès/échec), l'indépendance des lignes et les colonnes est équivalente à ce qu'il n'y ait aucune différence entre les proportions de succès entre les 6 séries. Le tableau de contingence est automatiquement reconstruit par XLSTAT à partir des données d'entrée.

Le test du Khi’² permet de conclure qu'il y a au moins une série qui diffère des autres. Cependant, nous notons que la p-value est très proche du niveau de signification choisi (0.05).

kprop2f.gif

Nous savons que le test du Khi’² est un test asymptotique dont la fiabilité est peu sûre lorsque trop de cellules du tableau de contingence ont des valeurs faibles. Comme c'est ici le cas, il est recommandé d'utilisé le test de Monte Carlo utilisant des simulations. Le principe des simulations est de générer de manière aléatoire des tableaux de contingence ayant les mêmes sommes marginales, puis de calculer les distances du Khi’² sur ces tableaux. Enfin, nous déterminons quelle proportion de tableaux donnent une distance plus faible que celle mesurée sur le tableau des données, ce qui indique alors si le tableau correspond à un cas "extrême" ou non.

kprop3f.gif

Nous voyons que le test de Monte Carlo avec 5000 simulations donne presque le même résultat que le test du Khi’², ce qui confirme le fait qu'au moins une série est différente des autres.

Afin d'identifier quelles séries diffèrent, nous utilisons la procédure de Marascuilo. Les résultats sont affichés ci-dessous.

kprop4f.gif

Nous voyons que les séries qui diffèrent le plus sont S2 et S3. Comme S2 n'est pas significativement différente des autres séries, nous concluons que la série qui est responsable du rejet de l'hypothèse H0 du test de comparaison des k proportions est S3. Il est appartient alors aux ingénieurs de déterminer pour quelles raisons la qualité de production de la série S3 est meilleure.

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283