Direkt zum Inhalt

Klassifikationsbäume in Excel erstellen - Anleitung

Dieses Tutorium wird Ihnen helfe, einen CHAID-Klassifikationsbaum in Excel mithilfe der XLSTAT Software einzurichten und zu interpretieren.

Datensatz für das Erstellen eines CHAID-Klassifikationsbaums

Absicht dieses CHAID-Klassifikationsbaums

Das Ziel ist es, zu überprüfen, ob die vier Variablen das Vohersagem der Spezies erlauben und in diesem Fall die Regeln zu identifizieren, die die Bestimmung der Art eine Blume erlauben, wenn die 4 beschreibenden Variablen bekannt sind.

iris_setosa.jpgiris_versicolor.jpgiris_virginica.jpg

Iris Setosa, Versicolor und Virginica.

Einrichten des Dialogfensters zum Generieren eines CHAID-Klassifikationsbaums

Nach dem Öffnen von XLSTAT, wählen Sie den Befehl XLSTAT / Maschinelles Lernen / Klassifikations- und Regressionsbäume oder klicken Sie auf den entsprechenden Button der Maschinelles Lernen Toolbalkens (siehe unten).

Nach dem Klicken des Buttons erscheint das Dialogfenster der Diskriminanzanalyse. Nun können Sie die Daten auf dem Excel-Blatt auswählen. Die „abhängige Variable“ entspricht in diesem Fall der Spezies-Variablen. Sie ist eine qualitative Variable, die den Name der Art der Iris angibt. Die “erklärenden Variablen” sind die vier beschreibenden Variablen. Die “Beobachtungsbeschriftungen” werden mit dem entsprechenden Feld ausgewählt. Es wird die Methode CHAID ausgewählt, wobei die maximalie Baumtiefe 3 betragen soll.

tree1d.gif

Die Optionen erlauben das Anpassen mehrerer Parameter, die die Baumerzeugung beeinflussen. In unserem Beispiel werden die Vorgabewerte benutzt.

tree2d.gif

Betreffend die Diagramme, wird zunächst eine Darstellung des Baumes in Form von Balkendiagrammen gewählt, die die Häufigkeiten der Arten für jeden Knoten des Baumes anzeigt. Die weiter unten dargestellten Ergebnisse benutzen die Baumdarstellung mit Knoten in Form von Kuchendiagrammen.

tree3d.gif

Die Berechnungen beginnen sobald Sie auf OK klicken und die Ergebnisse werden angezeigt.

Interpretieren der Ergebnisse eines CHAID-Klassifikationsbaums

Nach den beschreibenden Statistiken der Variablen, zeigt XLSTAT erste Inforamtionen über die Struktur des Baumes an. Diese Tabelle erlaubt es die p-values der berechneten Tests für die verschiedenen Knoten, die Anzahl der Beobachtungen im Knoten, den zugehörigen Prozentsatz, den Vaterknoten und die Sohnknoten, die Teilungsvariable, deren zugehörigen Wert(e) (Intervalle im Fall von quantitativen Variablen) und die Reinheit, die den Prozentsatz an Objekten im Knoten, die die dominante Kategorie aufweisen angibt, vergleichen.

tree4d.gif

Anschließend wird der Klassifikationsbaum angezeigt.

tree5d.gif

Dieses Diagramm erlaubt es, die verschiedenen aufeinanderfolgenden Etapen mittels derer der Algorithmus CHAID die besten Teilungsvariablen zur Trennung der Kategorien der abhängigen Variable identifiziert. So sieht man in diesem Fall, dass ausschließlich durch die Blütenblattlänge der Algorithmus eine Regel gefunden hat, die die Irisart Setosa von den übrigen trennt: Wenn die Blütenblattlänge zwischen 10 und 24.5 ist, so gehört die Iris zur Art Setosa.

Die verschiedenen Informationen die für die einzelnen Knoten geliefert werden, werden im Folgenden erläutert.

tree51d.gif

Der Algoritmus stoppt, wenn keine Regel mehr gefunden werden kann oder wenn eine der vom Benutzer gesetzten Grenzen erreicht wurde (Anzahl der Objekte im Vater- oder Sohnknoten, Baumtiefe, Schwellwert des p-values für eine Teilungsvariable).

XLSTAT bietet Ihnen eine alternative Darstellung an. Anstatt die Verteilungen in jedem Knoten in Form eines Balkendiagramms darzustellen, erlaubt XLSTAT es Ihnen Kuchendiagramme zu benutzen, die sich als gut lesbar herausstellen, wenn man zahlreiche Knoten hat und die Anzahl der Kategorien der abhängigen Variable 4 oder 5 übersteigen. Der innere Kreis stellt hierbei die Verteilung der verschiedenen Kategorien (oder Intervalle) für den zugehörigen Knoten dar. Der äußere Ring entspricht der Verteilung derselben Kategorien für den Vaterknoten.

tree6d.gif

Die folgende Tabelle stellt die Regeln in Form von Sprachsätzen dar. Für jeden Knoten wird dabei die Regel für die dominante Kategorie des Knotens dargestellt. Der zugehörige Prozentsatz der dominanten Kategoriedes Knotens, der durch die Reinheit gegeben ist. Die Häufigkeit der durch die Regel betroffenen Kategorien wird in der Spalte "Häufigkeit" angezeigt.

tree7d.gif

So kann man lesen: "Wenn Blütenblattlänge in [30, 49.5[ und Blütenblattbreite in [10, 16.5[ dann Spezies = Versicolor für 100% der Fälle" Diese Regel wurde für 47 Blumen erfüllt.

Die Regeln entsprechen den Blättern des Baumes (die Endknoten) und erlauben es, Vorhersagen für jede Beobachtung zu treffen, wobei eine von der Verteilung der Kategorien abhängige Wahrscheinlichkeit für jedes Blass angegeben werden kann. Diese Ergebnisse werden in Form einer Tabelle mit Namen "Erbebnisse pro Objekt" dargestellt.

tree8d.gif

Man kann in der oben stehenden Tabelle sehen, dass 3 Beobachtungen falsch klassifiziert wurden. Dieses Ergebnis is gleichsam identisch mit dem bei der Diskriminanzanalyse erhaltenen Ergebnis, bei dem die Beobachtungen 5, 9 und 12 ebenfalls falsch klassifiziert sind.

Anschließend fasst die Konfusionsmastrix die Klassifizierung der Beobachtungen zusammen und gibt die Einordnungsfehlerrate, die dem Quotienten aus der Anzahl der Beobachtungen, die falsch klassifiziert wurden, und der Gesamtzahl der Beobachtungen an.

tree9d.gif

Die erzeugten Bäume sind teilweise dynamisch. Es ist möglich den Baum an einem Niveau alle unterhalb liegenden Äste zu beschneiden oder einen gegebenen Ast zu beschneiden. Sobald 6 graue Punkte um den Knoten herum erscheinen, so kann man mittels einem Klick auf die rechte Maustaste das folgende Kontextmenu anzeigen lassen:

tree10d.gif

Falls man einen Ast verbergen möchte, so wird anschließend der Baum mit den für den betreffenden Knoten beschnittenen Ästen angezeigt. Die Umrandung des zugehörigen Knotens wird rot angezeigt.

tree11d.gif

Es ist selbstverständlich möglich verborgene Äste oder den gesamten Baum wie vor der Beschneidung wieder anzuzeigen.

War dieser Artikel nützlich?

  • Ja
  • Nein