Agglomerative Clusterverfahren in Excel - Anleitung
Dieses Tutorium wird Ihnen helfen, ein agglomeratives hierarchisches Clustering (AHC) in Excel mithilfe der Software XLSTAT einzurichten und zu interpretieren.
Sie sind nicht sicher, ob dies das richtige Clustering-Tool ist, das Sie benötigen? Weitere Hinweise finden Sie hier.
Datensatz für die Durchführung eines agglomerativen hierarchischen Clustering in XLSTAT
Sie können
Die Daten stammen vom US Census Bureau. Sie entsprechen einer Erhebung von demographischen Merkmalen in 51 Staaten der vereinigten Staaten in 2000 und 2001. Der Ausgangsdatensatz wurde in Anteilen pro 1000 Einwohner transformiert, wobei die Daten des Jahres 2001 als Schwerpunkt der analyse benutzt wurden. Das Ziel ist es, homogene Gruppen von Staaten zu finden basierend auf den vorliegenden demografischen Daten.
Einrichten eines agglomerativen hierarchischen Clustering
Nach dem Öffnen von XLSTAT, wählen Sie den Befehl XLSTAT/Analyse der Daten/Agglomerative Hierarchisches Clustering oder klicken Sie auf den entsprechenden Button in der Toolbar "Analyse der Daten" (siehe unten).
Nach dem Klicken des Buttons erscheint das entsprechende Dialogfenster des Hierarchischen Clusterings. Sie können nun die Daten im Excel-Blatt auswählen. Es gibt mehrere Arten die Daten in den XLSTAT Dialogfenstern auszuwählen (siehe auch das Tutoriel Selecting data in Excel with XLSTAT zu diesem Thema). Im untersuchten Beispiel beginnen die Daten in der ersten Zeile; es ist daher schneller die Spaltenauswahl zu benutzen. Daher erscheinen im Dialogfenster unten die Auswahlen in Form von Spalten. Die Option „Variablenbeschriftungen“ ist aktiviert, da die erste Zeile der Daten die Namen der Variablen enthält. Die Variablen "Gesamtbevölkerung" wurde nicht ausgewählt, da wir hauptsächlich in der dynamische Demografie interessiert sind. Die letzte Spalte wurde nicht ausgewählt, da sie mir der vorhergehenden voll korreliert. Die Beschriftung der Beobachtungen wurden ausgewählt, da sie verfügbar sind.
Im Reiter Optionen wurde die Option Standardisieren aktiviert, um Skaleneffekte bei der Gruppenbildung zu vermeiden. Das automatische Abstumpfen wurde aktiviert, damit die Ergebnisse in Form von Gruppen und der Zuherögkeit der Beobachtungen zu den Gruppen angezeigt werden. Die übrigen Optionen wurden bei den Vorgabewerten belassen.
Die Berechnungen beginnen, sobald der Button OK geklickt wird.
Interpretieren der Ergebnisse eines agglomerativen hierarchischen Clustering
Falls Sie in den Optionen von XLSTAT die Option „Auswahl bestätigen lassen“ aktiviert haben, so bittet Sie XLSTAT die Anzahl der Zeilen und der Spalten der Auswahlen zu bestätigen.
Das erste dargestellte Ergebnis ist die Tabelle der Baumniveaus. Die Form beschreibt sehr gut die Datenstruktur. Wenn der Anstieg des Unähnlichkeitsniveaus sehr stark ist, so ist ein Niveau erreicht, bei den schon homogene Gruppen miteinander vereinigt werden. Das automatische Abstumpfen benutzt dieses Kriterium, um zu enscheiden, ab wann das Zusammenfügen von Beobachtungen (oder Gruppen von Beobachtungen) beendet wird.
Das Diagramm unterhalb ist das Dendrogramm. Es stellt dar, wie der Algorithmus arbeitet, um die Beobachtungen und dann die Untergruppen von Beobachtungen zu gruppieren. Wie Sie sehen können, hat der Algorithmus alle Beobachtungen erfolgreich gruppiert. Die gepunktete Linie stellt die automatische Trunkierung dar, die zu zwei Gruppen führt.
Die erste Gruppe (in blauer Farbe dargestellt) ist homogener als die zweite (sie ist auf dem Dendrogramm flacher). Dies wird bestätigt, wenn man die Varianz innerhalb der Klasse betrachtet. Sie ist für die zweite Gruppe sehr viel höher als für die erste Gruppe.
Die folgende Tabelle zeigt die Zustände, die in jedem Cluster klassifiziert wurden.
Eine Tabelle mit der Klassen-ID für jeden Staat wird auf dem Ergebnisblatt angezeigt. Ein Beispiel ist unten abgebildet. Diese Tabelle ist nützlich, da sie für weitere Analysen, z.B. Diskriminanzanalyse oder Parallelkoordinatenplot, mit der Ausgangstabelle zusammengeführt werden kann.
Dieses Video zeigt, wie dieses Tutorial durchgeführt wird.
War dieser Artikel nützlich?
- Ja
- Nein