Aller au contenu principal

IMPUTATION DE DONNÉES MANQUANTES AVEC L’ALGORITHME EM DANS EXCEL

Ce tutoriel explique comment imputer des données manquantes à l’aide de l’algorithme EM (Expectation Maximization) dans Excel avec XLSTAT.

Jeu de données pour estimer des données manquantes avec l’algorithme EM

Le jeu de données utilisé pour illustrer l’imputation de valeurs manquantes avec l’algorithme EM est le célèbre jeu de données des iris de Fisher. Des valeurs manquantes ont été introduites aléatoirement.

Paramétrer la boîte de dialogue des données manquantes avec XLSTAT

Une fois XLSTAT lancé, sélectionnez le menu XLSTAT / Préparation de données / Données manquantes.

La boîte de dialogue Données manquantes apparaît.

Dans le champ Données quantitatives sélectionnez les colonnes H à K qui correspondent au jeu de données avec les valeurs manquantes introduites aléatoirement. Choisissez ensuite d’estimer les données manquantes à l’aide de l’algorithme EM.

Une fois que vous avez cliqué sur le bouton OK, les calculs commencent puis les résultats sont affichés.

Résultats de l’imputation dans XLSTAT

Le graphique représentant les données manquantes en rouge est affiché, on ne remarque pas de motifs particuliers dans la structure des données.

Ensuite les statistiques descriptives avant et après imputation sont affichées.

Puis les données complétées sont affichées et les données initialement manquantes sont en gras.

Si on compare les données imputées (table au-dessus) aux données initiales non manquantes (tableau en-dessous), on peut voir que les données complétées sont proches des vraies valeurs. Par exemple on obtient 32.8 au lieu de 33 pour la première observation. Cette méthode est donc bien plus pertinente dans notre cas qu’une imputation par la moyenne par exemple.

Cet article vous a t-il été utile ?

  • Oui
  • Non