Hauptkomponentenanalyse (HKA) in Excel - Anleitung
Dieses Tutorium wird Ihnen helfen, eine Hauptkomponenten-Analyse (HKA) in Excel mithilfe der Software XLSTAT einzurichten und zu interpretieren. Sie sind nicht sicher, ob dies das richtige Tool für die multivariate Datenanalyse ist, das Sie benötigen? Weitere Hinweise finden Sie hier.
Datensatz für die Durchführung einer Hauptkomponenten-Analyse in Excel mit XLSTAT
Die Daten stammen vom US Census Bureau und beschreiben die Bevölkerungsveränderungen von 51 Staaten zwischen 2000 und 2001. Der erste Datensatz wurde in Raten pro 1000 Einwohner transformiert, wobei die Daten für 2001 als Schwerpunkt der Analyse dienen. Dieser Datensatz wird auch in unserem Tutorium Hierarchisches Clustering verwendet.Absicht dieses Tutoriums
Unsere Absicht besteht darin, die Korrelation zwischen den Variablen zu analysieren und herauszufinden, ob die Bevölkerungsveränderungen in einigen Staaten sich sehr von denen in anderen Staaten unterscheidet.
Was ist die Hauptkomponenten-Analyse
Die Hauptkomponenten-Analyse ist eine sehr nützliche Methode zur Analyse numerischer Daten, die in einer Tabelle M Beobachtungen / N Variablen angeordnet sind. Sie haben die Möglichkeit:
-
Korrelationen zwischen den N Variablen schnell darzustellen und zu analysieren,
-
Die M Beobachtungen (ursprünglich durch die N Variablen beschrieben) auf einer niedrigdimensionalen Karte darzustellen und zu analysieren, die optimale Ansicht für ein Variabilitätskriterium,
-
Einen Satz von P unkorrelierten Faktoren zu erstellen
Die Grenzen einer Hauptkomponenten-Analyse ergeben sich aus der Tatsache, dass es sich um eine Projektionsmethode handelt, und manchmal kann die Darstellung zu Fehlinterpretationen führen. Es gibt jedoch einige Tricks, um diese Fallen zu vermeiden.Es ist auch wichtig, zu beachten, dass die HKA ein exploratives statistisches Tool ist und im Allgemeinen nicht zum Testen von Hypothesen geeignet ist. Der Vorteil dieses Aspekts besteht darin, dass HKAs mehrfach durchgeführt werden können, wobei Beobachtungen oder Variablen in jedem Durchlauf hinzugefügt oder entfernt werden können, solange diese Änderung in den Interpretationen begründet werden.
Erstellen einer Hauptkomponenten-Analyse mit XLSTAT
Auswahl der Daten
Nach dem Aktivieren von XLSTAT wählen Sie den Befehl XLSTAT/Analyse der Daten/Hauptkomponenten-Analyse oder klicken Sie auf den entsprechenden Button der Symbolleiste Analyse der Daten (siehe unten).
Das Dialogfenster Hauptkomponenten-Analyse wird angezeigt.
Markieren Sie die Daten in dem Excel-Tabellenblatt.
In diesem Beispiel beginnen die Daten in der ersten Zeile, deshalb ist es schneller und einfacher, die Spaltenauswahl zu verwenden. Dies erklärt, warum die Buchstaben, die den Spalten entsprechen, in den Auswahlfeldern angezeigt werden.
Das ausgewählte Datenformat ist Beobachtungen/Variablen aufgrund des Formats der Eingabedaten.
Hauptkomponenten-Analyse: Wahl des geeigneten Typs - Pearson oder Kovarianz
Der HKA-Typ, der während der Berechnungen verwendet wird, ist die Pearson-Korrelationsmatrix, welche dem klassischen Korrelationskoeffizienten entspricht. Kovarianzmatrizen weisen Variablen mit höheren Varianzen mehr Gewicht zu. Die Spearman-Korrelationen sind möglicherweise besser geeignet, wenn die HKA für Variablen mit verschiedenen Verteilungen durchgeführt wird. Polychorische Korrelationen werden an ordinale Variablen angepasst.
Hauptkomponenten-Analyse in XLSTAT, Konfigurieren von Ausgabe und Diagrammen
In der Registerkarte Ausgabe aktivieren wir die Option zur Darstellung signifikanter Korrelationen in Fettdruck (Signifikanztest).
In der Registerkarte Diagramme wird die Markierung der Filtrierungsoption entfernt, um die Beschriftungen auf allen Diagrammen und alle Beobachtungen (Beobachtungsdiagramme und Biplots) anzuzeigen. Falls viele Daten vorhanden sind, verlangsamt sich möglicherweise die globale Anzeige der Ergebnisse durch die Anzeige der Beschriftungen. Durch die Anzeige aller Beobachtungen werden die Ergebnisse möglicherweise unlesbar. In diesen Fällen wird empfohlen, die anzuzeigenden Beobachtungen zu filtrieren.
Hauptkomponenten-Analyse in XLSTAT - Starten der Berechnungen
Die Berechnungen beginnen, sobald Sie auf OK geklickt haben. Sie werden aufgefordert, die Anzahl der Zeilen und Spalten zu bestätigen.
Hinweis: Diese Meldung kann umgangen werden durch Entfernen der Markierung bei „Auswahl bestätigen lassen“ im Optionspanel von XLSTAT.
Danach müssen Sie die Achsen bestätigen, für die Sie Diagramme anzeigen möchten. In diesem Beispiel ist der Prozentsatz der Variabilität, repräsentiert durch die ersten beiden Faktoren, nicht sehr hoch (67,72 %); um eine Fehlinterpretation der Ergebnisse zu vermeiden, haben wir beschlossen, die Ergebnisse durch ein zweites Diagramm auf den Achsen 1 und 3 zu vervollständigen.
Interpretieren der Ergebnisse einer Hauptkomponenten-Analyse in Excel mithilfe von XLSTAT
Interpretation einer HKA-Korrelationsmatrix
Das erste zu analysierende Ergebnis ist die Korrelationsmatrix. Wir können sofort sehen, dass die Anteile der Personen unter und über 65 negativ korreliert sind (r = -1). Wir hätten beide Variablen ohne Auswirkung auf die Qualität der Ergebnisse entfernen können. Man erkennt ebenfalls, dass die Zuwanderung aus anderen Staaten der USA sehr wenig mit den anderen Variablen korreliert ist, einschließlich der Auslandseinwanderung. Dies deutet darauf hin, dass die Motivation für einen Umzug bei US-Bürgern und Ausländern verschieden ist.
Interpretation der Eigenwerte in der Hauptkomponenten-Analyse
Die folgende Tabelle mit ihrem zugehörigen Diagramm sind an ein mathematisches Objekt angelehnt, den Eigenwerten, welche die einem einfachen Konzept folgen: Die Qualität der Projektion von N Dimensionen (N ist die Anzahl der Variable, hier 7) auf eine kleinere Anzahl von Dimensionen. In unserem Fall sieht man, dass der erste Eigenwert 3,567 ist und 51 % der Gesamtvariabilität repräsentiert. Dies bedeutet, falls man die Daten auf einer einzigen Achse darstellt, so wird immer noch % der Gesamtvariabilität erhalten bleiben.
Jeder Eigenwert entspricht einem Faktor und jeder Faktor einer Dimension. Ein Faktor ist eine lineare Kombination der Ausgangsvariablen, und alle Faktoren sind unkorreliert (r=0). Die Eigenwerte und die Faktoren werden in absteigender Ordnung gemäß der Variabilität dargestellt (umgewandelt in %).
Allgemein gesprochen gilt Faktor = HKA-Dimension = HKA-Achse
Idealerweise entsprechen die ersten beiden oder drei Eigenwerte einem hohen Prozentsatz der Varianz, so dass die auf den ersten beiden oder drei Faktoren basierenden Diagramme eine gute Abbildungsqualität der ursprünglichen multidimensionalen Tabelle bieten. In diesem Beispiel können wir mithilfe der ersten beiden Faktoren 67,72 % der Ausgangsvariabilität der Daten wiedergeben. Dies ist ein gutes Ergebnis, aber wir müssen vorsichtig sein, wenn wir die Darstellungen interpretieren, da einige Informationen möglicherweise in den nächsten Faktoren versteckt sind. Wir können hier sehen, dass obwohl wir ursprünglich 7 Variablen hatten, die Anzahl der Faktoren nun 6 ist. Dies ist auf die beiden Altersvariablen zurückzuführen, die negativ korreliert sind (-1). Die Anzahl der „nützlichen“ Dimensionen wurde automatisch festgestellt.
Interpretation von Ergebnissen in Bezug auf Variablen in HKA
Die erste Darstellung ist der Korrelationskreis (siehe unterhalb auf den Achsen F1 und F2). Er entspricht einer der Ausgangsvariablen im Faktorbereich. Wenn zwei Variablen weit vom Zentrum entfernt sind, so sind sie: - nah beieinander abgebildet, und daher sind sie signifikant positiv korreliert (r ist nahe an 1), - orthogonal liegend abgebildet, und daher signifikant nicht-korreliert (r nah bei 0), - symmetrisch gegenüberliegend in Bezug auf das Zentrum, und daher signifikant negativ korreliert (r nahe an -1).
Wenn die Variablen nahe am Zentrum des Diagramms liegen, sind einige Informationen auf anderen Achsen aufgetragen und jede Interpretation riskant. Wir könnten beispielsweise versucht sein, zu interpretieren, dass die Variablen Inlandseinwanderung und Auslandseinwanderung korreliert sind, wobei dies jedoch nicht der Fall ist. Dies lässt sich anhand der Korrelationsmatrix oder im Korrelationskreis der Achsen F1 und F3 sehen.
Die Korrelationskreise sind ebenfalls nützlich zur Interpretation der Signifikanz der Achsen. In unserem Fall ist die horizontale Achse klar an das Alter und die Bevölkerungserneuerung angelehnt, wogegen die vertikale Achse essentiell auf die Inlandseinwanderung aufbaut. Diese Trends sind hilfreich bei der Interpretation der nächsten Darstellung. Um zu überprüfen, ob eine Variable stark an eine Achse gebunden ist, reicht es aus die Tabelle der quadrierten Cosinuswerte zu betrachten: Je größer der quadrierte Cosinuswert ist, desto mehr ist die Variable an die entsprechende Achse gebunden. Je näher der quadrierte Cosinuswert einer gegebenen Variable bei Null liegt, desto vorsichtiger müssen Sie bei der Interpretation der Ergebnisse hinsichtlich der Trends auf den entsprechenden Achsen sein. Beim Betrachten dieser Tabelle können wir sehen, dass die Trends für die Auslandseinwanderung am besten auf der F2/F3-Darstellung zu sehen sind.
Interpretieren von Ergebnissen in Bezug auf Beobachtungen in HKA
Das nächste Diagramm kann der Hauptabsicht der Hauptkomponenten-Analyse (HKA) entsprechen. Es erlaubt die Darstellung der Beobachtungen auf einer zweidimensionalen Karte, um so die Trends zu identifizieren. Man sieht in unserem Beispiel, dass die Demografie von Nevada und Florida einzigartig ist, genau wie die Demografie von Utah und Alaska, zwei Staaten, die gemeinsame Merkmale haben. Wen wir zur Tabelle zurückgehen, können wir bestätigen, dass Utah und Alaska eine geringe Bevölkerungsrate von Menschen über 65 Jahren haben. Utah hat die höchste Geburtenrate in den USA, und auch Alaska steht auf der Liste weit oben.
Es besteht ebenso die Möglichkeit, Biplots anzuzeigen, in denen gleichzeitig Variablen und Beobachtungen im HKA-Bereich dargestellt werden können.
Note on the usage of Principal Component Analysis
Principal component analysis is often performed before a regression, to avoid using correlated variables, or before clustering the data, to have a better overview of the variables. The number of clusters might sometimes be a simple guess based on the maps. The above demographic data have also been used in the tutorial on hierarchical clustering. The ">65 pop" variable has been removed as its inclusion would double the weight of the age variables in the analysis.
Going further: adding supplementary variables to the PCA
It is possible to add supplementary variables to the PCA after it has been computed. This may help increasing interpretation quality. In XLSTAT, those variables can be selected under the Suppl. Data tab of the PCA dialog box. Supplementary variables can be divided into two types:
- Qualitative supplementary variables: they allow to color observations on the map according to the category they belong to. In this tutorial's example, we could have added a column defining if a state is mostly republican or mostly democrat.
- Quantitative supplementary variables: these variables can be added to see how they correlate with the group of variables that have been used to build the PCA. In the case where PCA is performed before a regression, the explanatory variables can be used to construct the PCA while the dependent variable can be added as a supplementary variable. This may help to roughly detect which explanatory variables could have the strongest effects on the dependent variable.
War dieser Artikel nützlich?
- Ja
- Nein