Wahl des geeigneten statistischen Modells
Wenn Sie mit der statistischen Modellierung nicht vertraut sind, könnte diese einfache und kurze Einleitung für das Verständnis des nachstehenden Rasters hilfreich sein.
Ein Leitfaden für die Wahl eines dem jeweiligen Fall angepassten statistischen Modellierungstools
Die Wahl eines statistischen Modells ist nicht ganz einfach. Es ist ein Irrtum, zu glauben, dass es für jeden Datensatz ein eigenes passendes Modell gibt. Jedes Modellierungstool gibt Antwort auf spezifische Fragen. Beispielsweise kann Glykämie im Zusammenhang mit einer spezifischen Diabetes durch eine qualitative Variable erklärt werden (z. B. das Geschlecht). In diesem Fall kann das ANOVA-Modell verwendet werden. Ferner können wir Altersdaten (quantitative Variable) verwenden, um anhand derselben Daten festzustellen, ob es eine an das Alter der Patienten geknüpfte lineare Zunahme oder Abnahme der Glykämie gibt. In diesem Fall würden wir die lineare Regression heranziehen.
Ausschlaggebend für die Wahl des statistischen Modells kann auch die Form der Beziehungen zwischen den abhängigen und erklärenden Variablen sein. Eine grafische Untersuchung dieser Beziehungen kann sehr nützlich sein. Zuweilen stellen sich diese Formen als Kurvenverläufe dar, sodass polynominale oder nichtlineare Modelle besser geeignet sind als lineare Modelle.
Maßgeblich für die Wahl eines Modells kann auch die spezifische, von Ihnen untersuchte Fragestellung sein. Beispielsweise impliziert die Schätzung der Parameter Vmax und Km der Michaelis-Menten-Enzymkinetik die Berücksichtigung der spezifischen Michaelis-Menten-Gleichung, die Reaktionsgeschwindigkeit (abhängige Variable) und Substratkonzentration (erklärende Variable) auf nichtlineare Weise zueinander in Beziehung setzt.
Wenn der Zweck einer Studie nur darin besteht, Vorhersagen aus einer Vielzahl von Variablen zu treffen, können auch andere Lösungen als parametrische Modelle erwogen werden. Beispielsweise ist die Partial Least Squares Regression ein spezifisches Tool, das sich dafür eignet, eine abhängige Variable aus einer unbegrenzten Anzahl möglicherweise korrelierten erklärenden Variablen vorherzusagen. Die Verwendung der Partial Least Squares Regression wird gerne in der Chemometrie verwendet, wo Ergebnisse häufig durch ein großes Spektrum an Wellenlängen vorausgesagt werden.
Wie viele Variablen sollten in das Modell aufgenommen werden?
Nach der Auswahl eines passenden Modellierungstools stellt sich häufig die Frage, wie viele Parameter in das Modell aufgenommen werden sollten. Je mehr Parameter aufgenommen werden, desto besser passt das Modell zu den Daten (d. h. desto geringer die Residuen, was ein höheres Bestimmtheitsmaß R² impliziert). Sollte die Anzahl der Parameter im Modell also maximiert und die Residuen auf diese Weise auf ein Mindestmaß reduziert werden? Nicht wirklich. Ein Modell, das zu sehr zu den Daten passt, bildet die verwendete spezifische Stichprobe zu stark ab, sodass eine Übertragung auf die gesamte Population weniger genaue Ergebnisse liefert.
Die Qualität eines Modells, die sich am Gleichgewicht zwischen einem guten Passen der Daten und einer minimalen Anzahl an Parametern misst, kann mithilfe von Indizes wie dem Akaikeschen Informationskriterium (AIC) oder dem Bayesschen Informationskriterium (BIC bzw. SBC) bestimmt werden. Beim Vergleich mehrerer parametrischer Modelle hat das Modell mit dem niedrigsten Index die beste Qualität in der Reihe. Die Interpretation dieser Indizes in einem absoluten Kontext, d. h. wenn nur ein Modell berücksichtigt wird, ist wenig sinnvoll.
Das Raster
Das nachstehende Raster soll Ihnen bei der Wahl eines für Ihren Fall (Art und Anzahl abhängiger und erklärender Variablen) geeigneten statistischen Modells helfen. Das Raster beinhaltet auch eine Spalte, in dem ein Beispiel für den jeweiligen Fall aufgeführt ist.
Gültigkeitsbedingungen von parametrischen Modellen sind im Abschnitt nach diesem Gitter aufgelistet.
Die angezeigten Lösungen sind die in der Statistik am häufigsten eingesetzten Tools. Sie sind alle in XLSTAT verfügbar. Die Liste ist nicht vollständig. Es existieren viele andere Lösungen.
Abhängige Variable | Erklärende Variable(n) | Beispiel | Parametrische Modelle | Gültigkeitsbedingungen | Andere Lösungen |
---|---|---|---|---|---|
Eine quantitative Variable | Eine qualitative Variable (= Faktor) mit zwei Stufen | Effekt der Kontamination (ja/nein) auf die Konzentration eines Spurenelements in einer Pflanze | ANOVA mit einem Faktor und zwei Stufen | 1 ; 2 ; 3 ; 4 | Mann-Whitney-Test |
Eine qualitative Variable mit k Stufen | Effekt des Standortes (4 Werke) auf die Konzentration eines Spurenelements in einer Pflanze | ANOVA mit einem Faktor | 1 ; 2 ; 3 ; 4 | Kruskal-Wallis-Test | |
Mehrere qualitative Variablen mit mehreren Stufen | Kombinatorische Effekte von Standort (4 Werke) und Pflanzenspezies auf die Konzentration eines Spurenelements in einem Pflanzengewebe | ANOVA mit mehreren Faktoren (faktorielle Designs) | 1 ; 2 ; 3 ; 4 | ||
Eine quantitative Variable | Effekt der Temperatur auf die Konzentration eines Proteins | Einfache lineare Regression; nichtlineare Modelle (hängt von der Form der Beziehung zwischen der abhängigen/erklärenden Variablen ab) | 1 - 3 | nichtparametrische Regression(*); Quantilsregression; Klassifikations- und Regressionsbäume(*); K nächste Nachbarn(*) | |
Mehrere quantitative Variablen | Effekt der Konzentration mehrerer Schadstoffe auf pflanzliche Biomasse | Multiple lineare Regression; nichtlineare Modelle | 1 - 6 | PLS Regression(*); K nächste Nachbarn(*) | |
Mischung aus qualitativen/quantitativen Variablen | Kombinatorische Wirkung von Geschlecht und Alter auf mit einem Diabetestyp verbundene Glykämie | ANCOVA | 1 - 6 | PLS Regression(*); Quantilsregression; Klassifikations- und Regressionsbäume(*); K nächste Nachbarn(*) | |
Mehrere quantitative Variablen | Qualitative und/oder quantitative Variable(n) | Effekt einer Umweltvariablen-Matrix auf das Transkriptom | MANOVA | 1 ; 4 ; 7 ; 8 | Redundanzanalyse; PLS Regression(*) |
Eine qualitative Variable | Qualitative und/oder quantitative Variable(n) | Dosiseffekt auf das Überleben/den Tod von Maus-Individuen | Logistische Regression (binomial oder ordinal oder multinomial) | 5 ; 6 | PLS-DA(*); Diskriminanzanalyse(*); Klassifikations- und Regressionsbäume(*); K nächste Nachbarn(*) |
Eine Zählvariable (mit vielen Nullen) | Qualitative und/oder quantitative Variable(n) | Dosiseffekt auf die Anzahl von Nekrosen bei Mäusen | Log-lineare Regression (Poisson) | 5 ; 6 |
(*) Lösungen, die sich eher für Vorhersagen eignen
Gültigkeitsbedingungen
Bei unseren Gültigkeitsbedingungen handelt es sich um Faustregeln. Es gibt keine genauen Regeln in der Literatur. Wir raten sehr dazu, die spezifischen Empfehlungen in den entsprechenden Feldern zu beachten.
Gültigkeitsbedingungen
-
Die Individuen sind unabhängig.
-
Die Varianz ist homogen.
-
Die Residuen folgen einer Normalverteilung.
-
Mindestens 20 Individuen (empfohlen).
-
Nichtvorliegen von Multikollinearität (falls das Ziel die Schätzung von Modellparametern ist).
-
Nicht mehr erklärende Variablen als Individuen.
-
Multivariate Normalität von Residuen.
-
Die Varianz ist innerhalb jeder abhängigen Variable homogen. Die Korrelationen zwischen abhängigen Variablen sind homogen.
War dieser Artikel nützlich?
- Ja
- Nein