Su solución de análisis de datos

Reglas de asociación para análisis cesta de compra

20/10/2017

Este tutorial le mostrará cómo crear e interpretar el aprendizaje de reglas de asociación (análisis de cesta de la compra, market basket analysis) en Excel con XLSTAT.

¿Qué es la minería de reglas de asociación (association rules mining)?

En 1994, Rakesh Agrawal y Ramakrishnan Sikrant han propuesto un algoritmo para identificar asociaciones entre elementos en forma de reglas. Este algoritmo se utiliza cuando el volumen de datos a analizar es importante. A medida que el número de elementos puede alcanzar varias decenas de miles, las posibilidades combinatorias son tales que es imposible analizar todas las reglas. Por lo tanto, es necesario limitar la búsqueda de reglas a las más importantes. Las mediciones de la calidad son valores probabilísticos que limitan la explosión combinatoria durante las dos fases del algoritmo, y permiten así la clasificación de los resultados.
Definiciones:
Elementos u objetos (items): Dependiendo del campo de aplicación, pueden ser productos, objetos, pacientes, eventos.
Transacción (transaction): Identificada con un identificador único, es un conjunto de elementos con un mínimo de un elemento. Los elementos pueden pertenecer a varias transacciones.
Conjunto de elementos (itemset): Un grupo de elementos. Se pueden encontrar en una o varias transacciones.
Soporte (support): Probabilidad de encontrar un elemento o un conjunto de elementos X en una transacción. Se estima por el número de veces que un elemento o conjunto de elementos se encuentra en todas las transacciones disponibles. Este valor se encuentra entre 0 y 1.
Regla (rule): Una regla define una relación entre dos conjuntos de elementos (itemsets) X e Y que no tienen elementos en común. X->Y significa que si tenemos X en una transacción, entonces podemos tener Y en la misma transacción.
Soporte de una regla (support of a rule): Probabilidad de encontrar elementos o conjuntos de elementos X e Y en una transacción. Se estima por el número de veces que ambos elementos o conjuntos de elementos se encuentran en todas las transacciones disponibles. Este valor se encuentra entre 0 y 1.
Confianza de una regla (confidence of a rule): Probabilidad de encontrar un elemento o conjunto de elementos Y en una transacción, sabiendo que el elemento o conjunto de elementos X está en la transacción. Se estima por la frecuencia correspondiente observada (número de veces que X e Y se encuentran en todas las transacciones, dividido por el número de veces que se encuentra X). Este valor se encuentra entre 0 y 1.
Importancia de una regla (lift of a rule): La importancia de una regla, que es simétrica (importancia (X-> Y) = importancia (Y-> X)), es el soporte (support) del conjunto de elementos que agrupa X e Y, dividido por el soporte de X y el soporte de Y. Este valor puede ser cualquier número real positivo. Una lift mayor que 1 indica un efecto positivo de X en Y (o Y en X) y por lo tanto la significación de la regla. Un valor de 1 significa que no hay efecto, y es como si los elementos o conjuntos de elementos fueran independientes. Una lift menor que 1, significa que hay un efecto negativo de X en Y o viceversa, como si fueran excluyentes entre sí.

Datos

Puede descargar una hoja Excel que contiene los datos y los resultados para su uso en este tutorial haciendo clic aquí. El conjunto de datos utilizados en este tutorial es un extracto del conjunto de datos que fue donado por Tom Brijs (http://fimi.ua.ac.be/data/retail.pdf, T. Brijs, G. Swinnen, K. Vanhoof and G. Wets. The use of association rules for product assortment decisions: a case study. In: Proceedings of the Fifth International Conference on Knowledge Discovery and Data Mining, San Diego (USA), August 15-18, 254-260, 1999). Contiene los datos de la cesta de la compra suministrados por una tienda minorista anónima de Bélgica. El conjunto de datos original contiene 88163 transacciones, pero lo hemos reducido a las primeras 65000 transacciones para que este tutorial pueda ser utilizado por los usuarios de Excel 2003. La herramienta de reglas de asociación permite funcionar asimismo directamente en archivos planos con gigabites de datos, pero este ejemplo se basa en un libro de Excel.
XLSTAT acepta los siguientes formatos para los datos de entrada:
  • Transaccional: Seleccione este formato si los datos están en dos columnas, una que indica la transacción (que se selecciona en el campo Transacciones), y la otra el elemento. Típicamente con este formato, hay una columna con los IDs de transacción, por cada transacción, tantas filas como elementos hay en la transacción, y una columna que indica los elementos. Las transacciones pueden estar en la primera columna y seleccionadas en este campo.
  • Lista: Seleccione este formato si sus datos incluyen una línea por cada transacción, mientras que las columnas contienen los nombres de los elementos correspondientes a la transacción. El número de elementos por transacción puede variar de una línea a otra. El número de columnas de la selección se corresponde con el número máximo de elementos por transacción.
  • Transacciones / Variables: Seleccione este formato si los datos corresponden a una línea por cada transacción y una columna por cada variable. Este formato es tal que todas las transacciones tienen el mismo número de elementos, que es el número de variables, y que los elementos de una variable dada no pueden estar presentes en la misma transacción.
  • Tabla de contingencia: Seleccione este formato si sus datos incluyen una fila por cada transacción y una columna por elemento, con valores nulos si el elemento no está presente y un número mayor que 1 si está presente
En este tutorial, los datos están disponibles en formato de lista, donde cada fila representa una transacción. Hay tantas columnas como elementos por transacción.

Configuración del análisis de las reglas de asociación

Una vez iniciado XLSTAT, elija el comando XLSTAT / Aprendizaje Automático / Asociación de reglas, o haga clic en el botón correspondiente de la barra de herramientas XLSTAT.

Una vez haya hecho clic en el botón, aparecerá el cuadro de diálogo. Seleccione los datos en la hoja de cálculo de Excel. En el campo “Objetos”, seleccione las columnas A-BV que contienen todas las transacciones y los elementos (con el fin de identificar la última columna que contiene una transacción, pulse Ctrl End, que mueve el cursor hasta el extremo derecho inferior del conjunto de datos). La opción de Etiquetas incluidas se deja inactiva debido a que la primera fila de los datos seleccionados no contiene cabeceras.

El soporte mínimo se deja en su valor predeterminado. Las reglas que tienen un soporte inferior a este valor no se tendrán en cuenta.

La confianza mínima se deja en su valor predeterminado. Las reglas que tienen una confianza menor que este valor no se tendrán en cuenta.

El número mínimo de antecedentes se deja en su valor predeterminado. No existe ninguna limitación específica sobre el número de elementos que figuran en la parte izquierda (X) de la regla (X->Y).

En la pestaña Opciones, elegimos que las normas se ordenen en función de su confianza.

Los cálculos empiezan una vez haya hecho clic en el botón OK. Los cálculos duran unos 35 segundos. Se abrirá una ventana para que pueda detener el análisis en cualquier momento. A continuación se muestran los resultados.

Interpretación de los resultados de un análisis de reglas de asociación

Los primeros resultados confirman el número de elementos en el conjunto de datos y el número de transacciones. El resumen de tabla de reglas de asociación muestra todas las reglas que cumplen con las restricciones definidas en la ficha General del cuadro de diálogo. Vemos aquí que la regla con la mayor confianza es la regla que dice que si los productos 41 y 48 están en la cesta, entonces hay un 81.6% de posibilidades de que también esté producto 39. Esta regla se encuentra en el 7.9% de las transacciones. La importancia (lift) es 1.426, lo que significa que tener (41 y 48) o, respectivamente, (39) aumenta la probabilidad de tener (39) o, respectivamente, (41 y 48) por un factor de 1.426.

 

La matriz de influencia es otra manera de mostrar las confianzas (confidences) de tener los elementos en columnas sabiendo que los elementos en filas están presentes.

El gráfico de influencia es la representación gráfica de la misma tabla.

La siguiente tabla es una matriz simétrica con un promedio de las confianzas entre los productos que intervienen en las reglas que cumplen los criterios de soporte y confianza mínimos. Esta tabla se utiliza a continuación para crear una visualización de los productos basados ​​en sus proximidades (basado en el método MDS, una característica única desarrollada por Addinsoft en 2014).

 

En el gráfico de los elementos (Items chart) vemos que los productos 48 y 39 son los más cercanos.

El enfoque desarrollado aquí muestra cómo utilizar las reglas de asociación para analizar las cestas de la compra. Las decisiones de interpretación y de funcionamiento que se derivan de estos resultados dependen en gran medida del conocimiento que se tenga del mercado y de los productos.

Contacto

Email ventas

Contactar con nuestro soporte técnico : support@xlstat.com

https://cdn.desk.com/
false
desk
Cargando
hace #{num} segundos
hace un minuto
hace #{num} minutos
hace una hora
hace #{num} horas
hace un día
Hace #{num} días
sobre
false
Se han encontrado caracteres no válidos
/customer/portal/articles/autocomplete
9283