Ihre Datenanalyse Lösung

Assoziationsregeln für Warenkorbanalysen in Excel

20/10/2017

Dieses Tutorium wird Ihnen helfen, Assoziationsregeln für Warenkorbanalysen in Excel mit XLSTAT einzurichten und zu interpretieren.

Analyse mit Assoziationsregeln

Rakesh Agrawal und Ramakrishnan Sikrant beschrieben im Jahr 1994 einen Algorithmus zum Erkennen von Zusammenhängen zwischen Items in Form von Regeln. Dieser Algorithmus wird verwendet, wenn große Datenmengen analysiert werden sollen. Bei zehntausenden Items ist die Kombinatorik so hoch, dass unmöglich alle Regeln untersucht werden können. Daher ist es notwendig, sich bei der Suche nach Regeln auf die wichtigsten zu beschränken. Als Qualitätsmaße werden Wahrscheinlichkeitswerte herangezogen. Diese begrenzen die Anzahl der Kombinationen während der beiden Schritte des Algorithmus und ermöglichen eine Sortierung der Ergebnisse.

Definitionen:

Items: Bei Items kann es sich je nach Anwendungsbereich um Produkte, Objekte, Patienten oder Ereignisse handeln.

Transaktionen: Transaktionen werden über einen eindeutigen Bezeichner identifiziert. Eine Transaktion besteht aus einer Menge von Items mit mindestens einem Item. Ein Item kann zu verschiedenen Transaktionen gehören.

Itemmenge: Eine Gruppe von Items. Itemmengen können in einer oder mehreren Transaktionen vorkommen.

Support: Die Wahrscheinlichkeit, dass sich ein Item oder eine Itemmenge X in einer Transaktion befindet. Sie wird anhand der Anzahl geschätzt, mit der ein Item oder eine Itemmenge tatsächlich in den verfügbaren Transaktionen vorkommt. Dieser Wert liegt zwischen 0 und 1.

Regel: Eine Regel definiert eine Beziehung zwischen zwei Itemmengen X und Y ohne gemeinsame Items. X->Y bedeutet: Wenn X in einer Transaktion vorhanden ist, kann auch Y in dieser Transaktion vorhanden sein.

Support einer Regel: Die Wahrscheinlichkeit, dass sich die Items oder Itemmengen X und Y in einer Transaktion befinden. Sie wird anhand der Anzahl geschätzt, mit sowohl Item als auch Itemmenge tatsächlich in den verfügbaren Transaktionen vorkommen. Dieser Wert liegt zwischen 0 und 1.

Confidence einer Regel: Die Wahrscheinlichkeit, das Item oder die Itemmenge Y in einer Transaktion zu finden, wenn sich Item oder Itemmenge X mit Sicherheit in dieser Transaktion befindet. Die Confidence wird anhand der entsprechenden beobachteten Häufigkeit geschätzt (Häufigkeit von X und Y in allen Transaktionen/Häufigkeit von X). Dieser Wert liegt zwischen 0 und 1.

Lift einer Regel: Der Lift einer Regel ist symmetrisch (Lift(X->Y)=Lift(Y->X)) und wird als Support der Itemmenge mit X und Y geteilt durch den Support von X und den Support von Y definiert. Dieser Wert ist eine positive reelle Zahl. Ein Lift größer als 1 impliziert einen positiven Effekt von X auf Y (bzw. Y auf X) und daher eine Signifikanz der Regel. Der Wert 1 bedeutet, dass kein Effekt vorhanden ist, d. h. die Items oder Itemmengen sind anscheinend unabhängig voneinander. Ein Lift kleiner als 1 impliziert einen negativen Effekt von X auf Y (bzw. Y auf X), d. h. die Items oder Itemmengen scheinen sich gegenseitig auszuschließen.

 

Datensatz

Sie können eine Excel-Tabelle mit den Daten sowie den Ergebnissen herunterladen, indem Sie hier klicken. Der in diesem Tutorial verwendete Datensatz ist ein Datensatzauszug mit freundlicher Genehmigung von Tom Brijs (http://fimi.ua.ac.be/data/retail.pdf, T. Brijs, G. Swinnen, K. Vanhoof und G. Wets. The use of association rules for product assortment decisions: a case study. In: Proceedings of the Fifth International Conference on Knowledge Discovery and Data Mining, San Diego (USA), August 15-18, 254-260, 1999). Der Datensatz enthält die anonymisierten Warenkorbdaten eines anonymen belgischen Einzelhandelsgeschäfts. Der Originaldatensatz enthält 88.163 Transaktionen. Wir haben ihn auf die ersten 65.000 Transaktionen gekürzt, sodass dieses Tutorial auch mit Excel 2003 durchgeführt werden kann. Das Assoziationsregeltool ermöglicht auch eine direkte Bearbeitung von Flatfiles mit Gigabytes an Daten, dieses Beispiel basiert jedoch auf einer Excel-Arbeitsmappe.

XLSTAT akzeptiert folgende Layouts für Eingabedaten:

  • Transactional: Wählen Sie dieses Format, wenn sich Ihr Datensatz auf zwei Spalten verteilt, wobei eine auf die Transaktion (im Transaktionsfeld auszuwählen) und die andere auf das Item hinweist. In der Regel gibt es bei diesem Format eine Spalte mit Transaktions-IDs, wobei die Anzahl der Zeilen für jede Transaktion der Anzahl der Items in der Transaktion entspricht, und eine Spalte mit Items. Die Transaktionen können in der ersten Spalte stehen und in diesem Feld ausgewählt werden.
  • Liste: Wählen Sie dieses Format, wenn in Ihrem Datensatz für jede Transaktion eine Zeile vorbehalten ist und die Spalten die Namen der Items enthalten, die zu dieser Transaktion gehören. Die Anzahl der Items pro Transaktion kann je Zeile unterschiedlich sein. Die Anzahl der Spalten in der Auswahl entspricht der maximalen Anzahl der Items pro Transaktion.
  • Transaktionen/Variablen: Wählen Sie dieses Format, wenn in Ihrem Datensatz für jede Transaktion eine Zeile und für jede Variable eine Spalte vorbehalten ist. Bei diesem Format verfügen alle Transaktionen über die gleiche Anzahl von Items, die der Anzahl der Variablen entspricht. Items von einer gegebenen Variablen können nicht in derselben Transaktion vertreten sein.
  • Kontingenztabelle: Wählen Sie dieses Format, wenn Ihr Datensatz eine Zeile pro Transaktion und eine Spalte pro Item enthält, mit NULL-Werten, wenn das Item nicht vorhanden ist, und einer Zahl größer als 1, wenn das Item vorhanden ist.

In diesem Tutorial stehen die Daten als Liste zur Verfügung. Jede Zeile repräsentiert eine Transaktion. Die Spaltenanzahl ist gleich der Anzahl der Items pro Transaktion. 

 

Vorbereiten der Analyse mit Assoziationsregeln

Wählen Sie nach dem Öffnen von XLSTAT den Befehl XLSTAT / Maschinelles Lernen / Assoziationsregeln aus, oder klicken Sie auf der "XLSTAT"-Symbolleiste auf die entsprechenden Schaltfläche.

Nach dem Klicken auf die Schaltfläche wird das Dialogfeld angezeigt. Wählen Sie die Daten in der Excel-Tabelle aus. Wählen Sie im Feld Objekte die Spalten A bis BV mit allen Transaktionen und Items aus. (Drücken Sie Strg+Ende, wenn Sie die letzte Spalte mit einer Transaktion ermitteln möchten. Der Cursor bewegt sich an das untere rechte Ende des Datensatzes). Die Option Beschriftungen eingeschlossen ist deaktiviert, da die erste Zeile der ausgewählten Daten keine Kopfzeilen enthält.

Der Minimum Support bleibt auf dem Standardwert. Regeln mit einem Support niedriger als dieser Wert werden nicht berücksichtigt.

Die Minimum Confidence bleibt auf dem Standardwert. Regeln mit einer Confidence niedriger als dieser Wert werden nicht berücksichtigt.

Die Minimum Antecedent-Anzahl bleibt auf dem Standardwert. Es gibt keine Einschränkung bezüglich der Anzahl an Items im linken Teil (X) der Regel (X->Y).

Wählen Sie auf der Registerkarte "Optionen" eine Sortierung der Regeln nach "Confidence" aus.

Die Berechnungen werden ausgeführt, sobald Sie auf OK klicken. Die Berechnungen dauern etwa 35 Sekunden. Ein Fenster wird angezeigt. Hier können Sie die Analyse jederzeit beenden. Anschließend werden die Ergebnisse angezeigt.

 

Interpretation der Ergebnisse einer Analyse mit Assoziationsregeln

Die ersten Ergebnisse bestätigen die Anzahl der Items im Datensatz und die Anzahl der Transaktionen. In der Tabelle mit der Zusammenfassung der Assoziationsregeln werden alle Regeln angezeigt, die die im Dialogfeld der Registerkarte "Allgemein" definierten Bedingungen erfüllen. Die Regel mit der höchsten Konfidenz gibt folgende Auskunft: Wenn Produkte 41 und 48 im Warenkorb liegen, befindet sich mit einer Wahrscheinlichkeit von 81,6 % auch Produkt 39 im Warenkorb. Diese Regel trifft auf 7,9 % der Transaktionen zu. Der Lift liegt bei 1,426. Dies bedeutet: Wenn (41 und 48) oder umgekehrt (39) vorhanden sind, erhöht sich die Wahrscheinlichkeit um den Faktor 1,426, dass (39) oder umgekehrt (41 und 48) vorhanden sind.

 

Die Matrix des Einfluss zeigt die Konfidenzen auf andere Weise: Hier stehen Werte für die Items in den Spalten, wenn die Items in den Zeilen vorhanden sind.

 

Im Einflussdiagramm wird diese Tabelle grafisch dargestellt.

Die nächste Tabelle zeigt in einer symmetrischen Matrix die Mittelwerte der Konfidenzen zwischen Produkten, auf die Regeln zutreffen, die die Kriterien von Minimum Support und Confidence erfüllen. Anhand dieser Tabelle wird anschließend eine Visualisierung der Produkte auf Grundlage ihrer Nähe erzeugt (basierend auf dem von Addinsoft im Jahr 2014 entwickelten einzigartigen MDS-Verfahren).

 

Auf dem Diagramm der Objekte wird angezeigt, dass sich die Produkte 48 und 39 am nächsten sind.

 

Der hier entwickelte Ansatz zeigt, wie Assoziationsregeln in der Warenkorbanalyse eingesetzt werden können. Die Interpretation und betrieblichen Entscheidungen, die anhand dieser Ergebnisse getroffen werden, müssen sich auch nach dem jeweils vorhandenen Wissen über Markt und Produkte richten.

 

Kontakt

E-Mail an Vertrieb

Kontaktieren Sie unseren Support-Team: support@xlstat.com

https://cdn.desk.com/
false
desk
Laden
Sekunden her
eine Minute her
Minuten her
eine Stunde her
Stunden her
einen Tag her
Tage her
über
false
Ungültige Zeichen gefunden
/customer/portal/articles/autocomplete
9283