Pasar al contenido principal

Gráficos de caja: tutorial en Excel

Este tutorial muestra cómo hacer e interpretar gráficos de caja en Excel usando el software XLSTAT.

Datos para generar un gráfico de caja

Los datos corresponden a una muestra de 150 flores de iris en las que se han medido 4 variables. Las flores pertenecen a 3 especies diferentes. Fisher utilizó esta base de datos, que se ha hecho famosa, cuando desarrolló su teoría del análisis discriminante. En este ejemplo concreto, decidimos analizar la variable Longitud del sépalo de las flores para comprobar visualmente si hay diferencias entre las tres especies utilizando gráficos de caja (gráficos “box-and-whisker” o “box plots”).

La representación de las medias ± barras de error simétricas es muy común, pero solo es fiable si los datos son normales. Por otra parte, los gráficos de caja son adaptables a un rango más amplio de distribuciones, puesto que están basados en cuantiles. Además de permitir comparar entre sí algunas ubicaciones y amplitudes de las distribuciones, los gráficos de caja permiten comprobar si la distribución es simétrica o asimétrica, si existen outliers o valores atípicos en los datos, así como la ubicación de la media dentro de la distribución.

Configuración del cuadro de diálogo para hacer un gráfico de caja

Tras abrir XLSTAT, seleccione el comando XLSTAT / Visualización de datos / Gráficos univaridaos, o bien haga clic en el botón Estadísticos descriptivos en la barra de herramientas Descripción de datos (ver más abajo).

Una vez haga clic en el botón, aparece el cuadro de diálogo Estadísticos descriptivos.

Seleccionamos los datos correspondientes a la variable “Longitud del sépalo” en el campo Datos cuantitativos. Advierta que para hacer un gráfico de caja los datos deben ser numéricos (cuantitativos.)

Puesto que en la selección se ha incluido el nombre de la variable, debemos seleccionar la opción Etiquetas de las muestras.

Los datos de Especie se han seleccionado como submuestras para posibilitar la comparación entre grupos.

Se ha seleccionado la opción Hoja, debido a que queremos que los resultados se muestren en una nueva hoja en el libro de Excel.

Se han activado las opciones siguientes en la pestaña Opciones.


Las opciones Estandarizar o Reescalar de 0 a 100 pueden usarse cuando deseamos comparar algunas variables extendidas a lo largo de diferentes escalas – no es necesario usarlas en este caso puesto que estamos tratanco con una sola variable.

El intervalo de confianza no juega ningún papel en la generación de gráficos de caja, de modo que pasamos esta opción por alto.

En la pestaña Resultados, podemos seleccionar diferentes estadísticos numéricos descriptivos (media, desviación estándar, varianza, asimetría, curtosis...) que pueden calcularse para cada submuestra.

En la pestaña Gráficos(1) (gráficos relativos a datos cuantitativos), y en la sub-pestaña tipos de gráficos, marque la opción gráficos de caja (“Box plots”).


En la sub-pestaña Opciones, hemos elegido la opción Agrupar los gráficos, de forma que los gráficos de caja se muestren en el mismo gráfico, no de forma separada.

Se ha marcado la opción Min/Max, de forma que los valores máximo y mínimo queden representados en los gráficos de caja.

Fíjese en que también disponemos de varias opciones de visualización.

Haga clic en el botón OK para obtener los resultados.

Interpretación del gráfico de caja

Los resultados se muestran en una nueva hoja denominada “Desc”. Incluyen un conjunto completo de estadísticos descriptivos.

bp4.gif
Seguidamente se muestran los gráficos de caja.

Vemos un gráfico de caja por cada especie. Las cruces rojas corresponden a las medias. Las barras horizontales centrales son las medianas. Los límites inferior y superior de la caja son los cuartiles primero y tercero, respectivamente. Los puntos por encima o por debajo de los límites superior e inferior de los bigotes pueden considerarse valores atípicos o “outliers”. Los puntos azules son los valores mínimo y máximo de cada especie. La anchura horizontal de la caja no tiene significado estadístico.

Parece claramente que la variable Longitud del sépalo es diferente (más alta) en la especie tercera, comparada con las otras dos.

Observe por favor este vídeo para ver cómo generar este gráfico de caja.

¿Ha sido útil este artículo?

  • No