IMPUTATION DE DONNÉES MANQUANTES AVEC L’ALGORITHME EM DANS EXCEL
Ce tutoriel explique comment imputer des données manquantes à l’aide de l’algorithme EM (Expectation Maximization) dans Excel avec XLSTAT.
Jeu de données pour estimer des données manquantes avec l’algorithme EM
Le jeu de données utilisé pour illustrer l’imputation de valeurs manquantes avec l’algorithme EM est le célèbre jeu de données des iris de Fisher. Des valeurs manquantes ont été introduites aléatoirement.
Paramétrer la boîte de dialogue des données manquantes avec XLSTAT
Une fois XLSTAT lancé, sélectionnez le menu XLSTAT / Préparation de données / Données manquantes.
La boîte de dialogue Données manquantes apparaît.
Dans le champ Données quantitatives sélectionnez les colonnes H à K qui correspondent au jeu de données avec les valeurs manquantes introduites aléatoirement. Choisissez ensuite d’estimer les données manquantes à l’aide de l’algorithme EM.
Une fois que vous avez cliqué sur le bouton OK, les calculs commencent puis les résultats sont affichés.
Résultats de l’imputation dans XLSTAT
Le graphique représentant les données manquantes en rouge est affiché, on ne remarque pas de motifs particuliers dans la structure des données.
Ensuite les statistiques descriptives avant et après imputation sont affichées.
Puis les données complétées sont affichées et les données initialement manquantes sont en gras.
Si on compare les données imputées (table au-dessus) aux données initiales non manquantes (tableau en-dessous), on peut voir que les données complétées sont proches des vraies valeurs. Par exemple on obtient 32.8 au lieu de 33 pour la première observation. Cette méthode est donc bien plus pertinente dans notre cas qu’une imputation par la moyenne par exemple.
Cet article vous a t-il été utile ?
- Oui
- Non