Su solución de análisis de datos

Análisis Discriminante: tutorial en Excel

02/03/2017

Este tutorial muestra cómo configurar e interpretar un Análisis discriminante (DA) en Excel usando el software XLSTAT.

Datos para ejecutar un análisis discriminante 

Una hoja Excel que contiene los datos y los resultados de este ejemplo puede ser descargada haciendo clic aquà­. Los datos proceden de [Fisher M. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7, pp 179 -188] y corresponden a 150 flores de la familia Iris, definidas por 4 variables cuantitativas (Longitud-Sépalos, Anchura-Sépalos, Longitud-Pétalos, Anchura-Pétalos) y por su especie. Tres diferentes especies forman parte de este estudio: setosa, versicolor and virginica.

Objetivo de este análisis discriminante

Nuestro objetivo es probar si las cuatros variables descriptivas permiten identificar las especies, y visualizar los datos en un gráfico con el fin de comprobar que las tres especies son correctamente diferenciadas

iris_setosa.jpgiris_versicolor.jpgiris_virginica.jpg

Iris setosa, versicolor et virginica.

Configuración de un análisis discriminante

Una vez XLSTAT iniciado, elija el comando XLSTAT / Análisis de los datos / Análisis Factorial Discriminante o haga clic en el botón Análisis Factorial Discriminante de la barra de herramientas Análisis de los datos.

barda.gif

Una vez el botón presionado, aparece el cuadro de diálogo correspondiente al análisis Factorial Discriminante (AFD). Puede entonces seleccionar los datos en la hoja Excel. La "Variable dependiente" corresponde a la variable explicada, que es, en este caso preciso, la especie de Iris. Las variables explicativas son las cuatros variables que disponemos. Se deja la opción "Etiquetas de las columnas" activada ya que la primera fila de las columnas incluye el nombre de las variables. Cuando hace clic en el botón "Más" del cuadro de diálogo, aparece la parte inferior del cuadro de diálogo (le botón "Más" se convierte entonces en "Menos"). La parte inferior corresponde a las opciones avanzadas. Hemos deshabilitado la opción "Igualdad de las matrices de covarianza intra-grupos", ya que como lo veremos más tarde (Prueba de Box), efectuar una semejante hipótesis serà­a falso.

da1.gifda1-2.gifda1-3.gifda1-4.gif

Interpretación de los resultados de un análisis discriminante

Una vez que haya pulsado en el botón OK, empiezan los cálculos y luego se visualizan los resultados. XLSTAT empieza por visualizar las matrices implicadas en los cálculos. Las dos pruebas de Box permiten confirmar que no se puede efectuar la hipótesis que las matrices de covarianza son idénticas para las 3 especies.

da2.gif

La prueba del Lambda de Wilks permite probar si los vectores de las medias para los diferentes grupos son iguales o no (esta prueba se puede percibir como un equivalente multidimensional de la prueba LSD de Fisher o de la prueba HSD de Tukey). Aquà­ observamos que la diferencia entre los vectores es significativa al nivel de significación de 0.05.

da3.gif

En la siguiente tabla se visualizan las funciones discriminantes. Cuando se supone que las matrices de covarianza son iguales, estas funciones son lineales. En el caso contrario, son cuadráticas, como es el caso aquà­. La regla basada sobre estas funciones es tal que se le atribuye una observación al grupo cuya función discriminante da el valor más elevado.

da4.gif

La siguiente tabla proporciona los valores propios y el % de varianza correspondiente. Se puede ver que 99% de la varianza están representadas por el primer factor. Hay nada más que dos factores: en efecto, el número máximo de factores no nulos vale k-1, cuando n>p>k, donde n es el número de observaciones, p el número de variables explicativas y k el número de grupos.

da5.gif

El siguiente gráfico muestra como las cuatro primeras variables están correladas con los dos factores obtenidos (este gráfico está construido a partir de la tabla de las coordenadas de las variables). Se puede observar que el factor F1 está correlado con Long. Sép., Long. Pét. et Anch. Pét. y que F2 está correlado con Anch. Pét.

da6.gif

La siguiente tabla enumera para cada flor, sus coordenadas factoriales, la probabilidad de asignación a cada grupo, y el cuadrado de las distancias de Mahalanobis en el centroide de cada grupo. Cada observación es reclasificada en el grupo por el cual la probabilidad es máxima. Las probabilidades son probabilidades a posteriori que toman en cuenta las probabilidades a priori a través de la fórmula de Bayes. Se nota que las observaciones (5,9,12) fueron reclasificadas. Puede haber varias razones: la persona que efectuó mis mediciones ha cometido un error cuando medà­a, o los iris que corresponden a estos datos han tenido un crecimiento anormal por razones desconocidas, o el criterio de clasificación utilizado por el especialista no es correcto, o falta de información para diferenciar perfectamente las especies entre sà­.

da7.gif

En el siguiente gráfico representa las observaciones sobre los ejes factoriales. Este gráfico permite confirmar que las observaciones están correctamente discriminados sobre los ejes factoriales obtenidos a partir de las variables explicativas iniciales.

da8.gif

Por último, la matriz de confusión resume la información que concierne las reclasificaciones de observaciones, y se puede deducir el à­ndice de error aparente, que corresponde a la razón del número de observaciones reclasificadas, sobre el número total de observaciones.

da9.gif

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Cargando
hace #{num} segundos
hace un minuto
hace #{num} minutos
hace una hora
hace #{num} horas
hace un día
Hace #{num} días
sobre
false
Se han encontrado caracteres no válidos
/customer/portal/articles/autocomplete
9283