Aller au contenu principal

Qu'est-ce que la modélisation statistique?

Qu’est-ce que la modélisation statistique ?

La modélisation statistique est une manière simplifiée et formalisée mathématiquement d’approximer la réalité, en d’autres termes, de décrire les processus qui génèrent vos données. Optionnellement, elle permet de faire des prédictions à partir de cette approximation. Le modèle statistique est l’équation mathématique utilisée.

Voici un exemple simple. Nous cherchons à décrire le poids d’une variété de pomme de terre. Nous présentons une manière compliquée et une manière simple d’aboutir à notre objectif. La manière compliquée est de mesurer le poids de toutes les pommes de terre appartenant à cette variété à travers le monde et d’afficher les données sur un grand tableau Excel en guise de description de ce poids. La manière simple est de sélectionner un échantillon représentatif de 30 pommes de terre de cette variété, de calculer la moyenne et l’écart type de cet échantillon et d’utiliser uniquement ces deux chiffres pour décrire approximativement le poids de cette variété. Représenter une quantité par une moyenne et un écart type est un cas très simple de modélisation.

Un autre exemple est de représenter la relation entre la hauteur de plantes et l’humidité du sol par une ligne droite caractérisée par une pente et une ordonnée à l’origine suite à une expérience effectuée sur un échantillon de plantes soumises à une humidité croissante. Ce modèle particulier est la régression linéaire simple.

Simple linear regression

Qu’est-ce qu’une variable dépendante et qu’est-ce qu’une variable explicative ?

Dans la grande majorité des cas, les modèles statistiques impliquent des variables explicatives et dépendantes.

Une variable dépendante, aussi appelée variable à expliquer, est une que nous cherchons à décrire, à expliquer, à prédire. Elle est souvent représentée sur l’axe des ordonnées dans les graphiques de modélisation. Dans l’exemple sur la régression linéaire simple sur les plantes, la variable dépendante est la hauteur de plante.

Les variables explicatives, appelées également variables indépendantes, sont celles que nous utilisons dans le but d’expliquer, de décrire ou de prédire la ou les variable(s) dépendante(s). Les variables explicatives sont souvent représentées sur l’axe des abscisses. L’exemple sur la hauteur de plante implique une variable explicative unique, quantitative : l’humidité du sol.

Dans un modèle donné, les variables dépendantes et les variables explicatives peuvent être uniques ou multiples et de type quantitatif ou qualitatif. Il existe des modèles adaptés à chaque situation.

Que faire si j’ai plus de variables explicatives que d’observations ?

La présence d’un grand nombre de variables explicatives pose problème aux analyses statistiques classiques telles que la régression linéaire. Pour contrer ce problème, il existe des méthodes qui supposent que seule une partie des variables explicatives à disposition est en réalité pertinente pour modéliser la variable dépendante : il s’agit des régressions Régression LASSO, Régression Ridge et Régression Elastic net.

Qu’est-ce qu’un paramètre dans un modèle statistique ?

Dans la modélisation classique (paramétrique), la (ou les) variable(s) dépendante(s) est liée aux variables explicatives à travers une équation (le modèle) impliquant des quantités appelées paramètres du modèle. Dans l’exemple de la régression linéaire sur la hauteur de plantes, les paramètres sont l’ordonnée à l’origine et la pente1. L’équation peut s’écrire de la sorte :

Hauteur = ordonnée à l’origine + pente*humidité

Des calculs permettent d’estimer les paramètres du modèle. Ces estimations peuvent être utilisées pour effectuer des prédictions.

1La régression linéaire simple implique également un troisième paramètre, la variance des résidus (voir paragraphe qui suit).

Qu’est-ce qu’un résidu dans un modèle statistique ?

Techniquement, les résidus (ou erreurs) d’un modèle sont les distances entre les données et le modèle lui-même (représenté par la droite linéaire dans l’exemple sur la hauteur de plantes).

Model residuals

Les résidus représentent la part de variabilité des données n’ayant pas pu être capturée par le modèle. La statistique du R² est la part de variabilité expliquée par le modèle. Plus les résidus sont faibles, plus le R² est élevé.

Comparison between two r square

Quel modèle statistique choisir ?

Cette grille vous guidera dans le choix d’un modèle usuel en fonction du type et du nombre de variables dépendantes et explicatives. Des solutions autres que les modèles paramétriques sont également proposées.

Cet article vous a t-il été utile ?

  • Oui
  • Non