Gaußsche Mischmodelle in Excel - Anleitung
Dieses Tutorium wird Ihnen helfen, ein Gaussian Mixture Model (GMM) in Excel mithilfe der Software XLSTAT einzurichten und zu interpretieren. Sie sind nicht sicher, ob dies die richtige Clustering-Funktion ist, die Sie benötigen? Weitere Hinweise finden Sie hier.
Gaussian Mixture Models für Clustering
Diese Modelle werden häufig für Clustering-Zwecke verwendet. Sie können einen Rahmen für die Bewertung der Datenabschnitte bereitstellen, indem Sie berücksichtigen, dass jede Komponente ein Cluster repräsentiert. Diese Modelle haben zwei wesentliche Vorteile: - Es handelt sich um eine probabilistische Methode, um eine Fuzzy-Klassifikation der Beobachtungen zu erhalten. Die Wahrscheinlichkeit, zu jedem Cluster zu gehören, wird berechnet und eine Klassifikation wird normalerweise erreicht, indem jede Beobachtung dem wahrscheinlichsten Cluster zugewiesen wird. Diese Wahrscheinlichkeiten können auch zum Interpretieren der vermuteten Klassifikationen verwendet werden.
- Die Mischmodellierung ist sehr flexibel.
Datensatz für das Gaussian Mixture Model
Die Daten entsprechen der berühmten Schwertlilie von Fisher in [Fisher, R. A. (1936), The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7, Teil II, 179–188] Diese Daten liefern die Messungen (in Zentimetern) der Länge und Breite der Blütenblätter für 150 Blumen von 3 verschiedene Spezies von Schwertlilien (Setosa, Versicolor und Virginica).
Einrichten eines Gaussian Mixture Model
Nach dem Öffnen von XLSTAT wählen Sie den Befehl XLSTAT/Analyse der Daten/Gaussian Mixture Models oder klicken Sie auf den entsprechenden Button der Symbolleiste Analyse der Daten.
Sobald Sie auf den Button geklickt haben, erscheint das Dialogfeld.
Die Daten werden in einer Tabelle mit 150 Zeilen und 2 Spalten dargestellt. Es wird angenommen, dass die Beschriftungen unbekannt sind und dass das Gewicht jeder Zeile identisch ist. Da die Klassifikation der Daten gemäß der Länge und Breite des Blütenblattes der Schwertlilie erfolgt, wird die Option Multidimensional ausgewählt.
In der Registerkarte **Optionen(1), werden drei Interferenz-Algorithmen mit vier Auswahlkriterien und drei Initialisierungsmethoden angeboten. Der Benutzer kann außerdem die maximale Anzahl von Iterationen des Inferenz-Algorithmus und dessen Konvergenz-Schwellwert festlegen. Hier wählen wir eine zufällige Initialisierung mit zwei Replikaten und lassen bei allen anderen Optionen den Vorgabewert.
In der Registerkarte Optionen(2) **steht eine Liste der Gaussian Mixture Models zur Verfügung. Die minimale und maximale Anzahl der Klassen kann modifiziert und die Mischverhältnisse können so erzwungen werden, dass sie gleich sind. Hier wählen wir aus, die EEE- und EEV-Modelle für eine Reihe von Klassen zu testen, die von 2 bis 5 variieren.
Die Berechnungen beginnen, sobald Sie auf OK geklickt haben. Die Ergebnisse werden dann in einem neuen Tabellenblatt angezeigt.
Interpretieren der Ergebnisse eines Clustering mit einem Gaussian Mixture Model
Die ersten Ergebnisse, die angezeigt werden, sind die Statistiken für die verschiedenen Variablen (Länge und Breite). Als nächste wird der Wert des Auswahlkriteriums für alle Modelle und eine Reihe von Klassen, die von 2 bis 5 variieren, angezeigt.
Dann werden die geschätzten Parameter des ausgewählten Modells vorgegeben (Verhältnisse, Mittelwerte und Varianzen).
Eine Tabelle, in der die Merkmale des ausgewählten Modells angezeigt werden, wird danach dargestellt (BIC, AIC, Log-Wahrscheinlichkeit, NEC, ...).
In der nächsten Tabelle werden die Ergebnisse in Bezug auf Wahrscheinlichkeitsschätzung und -klassifikation für die ersten Beobachtungen des verfügbaren Datensatzes angezeigt. Die Klassifikation wird gemäß den Wahrscheinlichkeiten über die MAP-Regel (Maximum A Posteriori) gemessen). Wir können sehen, dass 3 Klassen ausgewählt wurden.
Schließlich wird eine Grafik der zusammengefassten Daten angezeigt.
Viele andere Funktionen und Optionen stehen bei den Mischmodellen mit XLSTAT zur Verfügung, einschließlich Gewichte der Beobachtungen, teilweise Etikettierung, 14 Interferenz-Algorithmen...
War dieser Artikel nützlich?
- Ja
- Nein