Solution d'analyse de données

Qu'est-ce que la modélisation statistique?

25/07/2017

Qu’est-ce que la modélisation statistique ?

La modélisation statistique est une manière simplifiée et formalisée mathématiquement d’approximer la réalité, en d’autres termes, de décrire les processus qui génèrent vos données. Optionnellement, elle permet de faire des prédictions à partir de cette approximation. Le modèle statistique est l’équation mathématique utilisée.

Voici un exemple simple. Nous cherchons à décrire le poids d’une variété de pomme de terre. Nous présentons une manière compliquée et une manière simple d’aboutir à notre objectif. La manière compliquée est de mesurer le poids de toutes les pommes de terre appartenant à cette variété à travers le monde et d’afficher les données sur un grand tableau Excel en guise de description de ce poids. La manière simple est de sélectionner un échantillon représentatif de 30 pommes de terre de cette variété, de calculer la moyenne et l’écart type de cet échantillon et d’utiliser uniquement ces deux chiffres pour décrire approximativement le poids de cette variété. Représenter une quantité par une moyenne et un écart type est un cas très simple de modélisation.

Un autre exemple est de représenter la relation entre la hauteur de plantes et l’humidité du sol par une ligne droite caractérisée par une pente et une ordonnée à l’origine suite à une expérience effectuée sur un échantillon de plantes soumises à une humidité croissante.  Ce modèle particulier est la régression linéaire simple.

Simple linear regression

Qu’est-ce qu’une variable dépendante et qu’est-ce qu’une variable explicative ?

Dans la grande majorité des cas, les modèles statistiques impliquent des variables explicatives et dépendantes.

Une variable dépendante, aussi appelée variable à expliquer, est une que nous cherchons à décrire, à expliquer, à prédire. Elle est souvent représentée sur l’axe des ordonnées dans les graphiques de modélisation. Dans l’exemple sur la régression linéaire simple sur les plantes, la variable dépendante est la hauteur de plante.

Les variables explicatives, appelées également variables indépendantes, sont celles que nous utilisons dans le but d’expliquer, de décrire ou de prédire la ou les variable(s) dépendante(s). Les variables explicatives sont souvent représentées sur l’axe des abscisses. L’exemple sur la hauteur de plante implique une variable explicative unique, quantitative : l’humidité du sol.

Dans un modèle donné, les variables dépendantes et les variables explicatives peuvent être uniques ou multiples et de type quantitatif ou qualitatif. Il existe des modèles adaptés à chaque situation.

Qu’est-ce qu’un paramètre dans un modèle statistique ?

Dans la modélisation classique (paramétrique), la (ou les) variable(s) dépendante(s) est liée aux variables explicatives à travers une équation (le modèle) impliquant des quantités appelées paramètres du modèle. Dans l’exemple de la régression linéaire sur la hauteur de plantes, les paramètres sont l’ordonnée à l’origine et la pente1. L’équation peut s’écrire de la sorte :

Hauteur = ordonnée à l’origine + pente*humidité

Des calculs permettent d’estimer les paramètres du modèle. Ces estimations peuvent être utilisées pour effectuer des prédictions.

1La régression linéaire simple implique également un troisième paramètre, la variance des résidus (voir paragraphe qui suit).

Qu’est-ce qu’un résidu dans un modèle statistique ?

Techniquement, les résidus (ou erreurs) d’un modèle sont les distances entre les données et le modèle lui-même (représenté par la droite linéaire dans l’exemple sur la hauteur de plantes).  

Model residuals

Les résidus représentent la part de variabilité des données n’ayant pas pu être capturée par le modèle. La statistique du R² est la part de variabilité expliquée par le modèle. Plus les résidus sont faibles, plus le R² est élevé.

Comparison between two r square

Quel modèle statistique choisir ?

Cette grille vous guidera dans le choix d’un modèle usuel en fonction du type et du nombre de variables dépendantes et explicatives. Des solutions autres que les modèles paramétriques sont également proposées.

 

Nous contacter

Envoyer un email au service commercial

Contacter notre équipe de support technique : support@xlstat.com

https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283