Su solución de análisis de datos

Regresión Logística: tutorial en Excel

30/01/2018

Este tutorial le mostrará cómo configurar e interpretar una Regresión logística en Excel usando el software XLSTAT.

¿No está seguro de que esta sea la función de modelado que está buscando? Consulte por favor esta guía.

¿Qué es la regresión logística?

La regresión logà­stica, y los métodos asociados como el análisis Probit, son muy útiles cuando queremos comprender o prever el efecto de una o varias variables sobre una variable con respuesta binaria, es decir, que puede admitir únicamente dos valores, por ejemplo 0/1 o Sà­/No. Una regresión logà­stica será muy útil para modelizar el efecto de dosis de medicamento en la medicina, de dosis de componentes quà­micos en la agricultura, o para calcular la propensión de clientes a responder a un mailing, o para medir el riesgo para que un cliente no reembolsar su préstamo en un banco.

Con XLSTAT es posible efectuar una regresión logà­stica directamente con los datos brutos (la respuesta es 0 o 1) o con datos agregados (la respuesta es una suma de éxito - de 1 por ejemplo - y en este caso el número de repeticiones también debe ser disponible).

log1.gif Ejemplo de datos brutos - (efecto de la temperatura sobre la resistencia de un chip electrónico)

log2.gif Ejemplo de datos agregados - (efecto de un insecticida sobre una especie de insecto)

Addinsoft a desarrollado un módulo especà­fico para el análisis de los efectos de dosis. XLSTAT-Dose and puede ser pedido por separado.

La regresión logà­stica permite modelizar la probabilidad para que un evento suceda, dado los valores de un conjunto de variables descriptivas cuantitativas y/o cualitativas.

Datos para ejecutar una regresión logística

El ejemplo que aplicaremos a continuación corresponde a un caso de marketing en el cual buscamos a prever la probabilidad para que un cliente renove su suscripción a un servicio de información en là­nea. Puede descargar una hoja de Excel con los datos y los resultados haciendo clic en el botón de abajo:
Descargar los datos

Los datos corresponden a una muestra de 60 "lectores", con la categorà­a de edad, la media de páginas vistas por semana en las 10 últimas semanas, y el número de páginas vistas durante la última semana. Fue propuesto a estos lectores de renovar su suscripción que debe expirar dentro de dos semanas. El objetivo es de comprender porque algunos han suscrito de nuevo y otros no.

Objetivo de la regresión logística

El objetivo es usar la regresión logà­stica para explicar los resultados obtenidos y luego para aplicar el modelo en el conjunto de la populación con el fin de identificar las personas que no renovarà­an su suscripción. Con esta información, podremos proponerles una promoción o servicios suplementarios con el fin de estimular su interés por la oferta.

Configuración de una regresión logística

Para activar el cuadro de diálogo de la regresión logà­stica, inicie XLSTAT, luego elija XLSTAT / Modelización de los datos / Regresión Logística.

XLSTAT Menu

Una vez que haya pulsado el botón, el cuadro de diálogo aparece. Elija los datos en la hoja Excel. La "Respuesta" corresponde a la columna en la cual se encuentra la variable binaria o cuantitativa (resultando entonces e una suma de binarios - en este caso la columna de los "Pesos" debe, luego, ser seleccionada). En nuestro caso, hay tres variables explicativas, una cualitativa - la clase de edad - y dos cuantitativas que corresponden al conteo de las páginas vistas. Como hemos seleccionado las referencias de las variables, debemos seleccionar la opción "Referencias presentes".

XLSTAT dialog box for logistic regression

Una vez que haya pulsado el botón OK, los cálculos son efectuados, y luego los resultados visualizados.

Interpretación de una regresión logística

l cuadro siguiente presenta los primeros detalles sobre el modelo y es útil para evaluar la contribución de las variables a la calidad del modelo.

log4.gif

Con utilizar este cuadro, observamos según la probabilidad asociada a las Pruebas del Chi2, que la variable que influye más la renovación es el número de páginas vistas en la semana anterior. La constante tiene también un papel significativo, asà­ como la pertenencia a la clase de edad 40-49 cuyo papel es fuertemente negativo. Este último punto deberá ser ampliado por los responsables marketing y editoriales, con el fin de estudiar el porqué de esta situación.

El siguiente cuadro proporciona varios indicadores de la calidad del modelo (o calidad del ajuste). Estos resultados son semejantes al R2 y al cuadro de análisis de la varianza de la regresión lineal y del Anova. El valor más importante es el Chi2 asociado al Log ratio (L.R.). Es el equivalente de la prueba F de Fisher del modelo lineal: intentamos de evaluar si las variables proporcionan una cantidad de información significativa para explicar la variabilidad de la variable binaria. En nuestro caso, como la probabilidad es inferior a 0.0001, se puede deducir que las variables proporcionan una cantidad significativa de información.

log5.gif

La última etapa reside en la aplicación del modelo sobre el conjunto de la populación. En nuestro caso el modelo se escribe: Y = Exp( L(x) ) / [ 1 + Exp( L(x) ], whereL(x) = -2.3567 + 0.0235.AvPage/Week + 0.0893.Page/Week + Factor donde Factor adquiere el valor del parámetro correspondiente a la clase de edad a la cual pertenece el cliente.

Cuando el modelo fue aplicado a los 600 clientes que debà­an renovar su suscripción, fue apreciado que solamente 40% eran capaz de suscribirse de nuevo. Gracias a una serie de acciones de marketing, el porcentaje finalmente obtenido fue de 85%, lo que constituye un excelente resultado.

Contacto

Email ventas

Contactar con nuestro soporte técnico : support@xlstat.com

https://cdn.desk.com/
false
desk
Cargando
hace #{num} segundos
hace un minuto
hace #{num} minutos
hace una hora
hace #{num} horas
hace un día
Hace #{num} días
sobre
false
Se han encontrado caracteres no válidos
/customer/portal/articles/autocomplete
9283