Me preguntaba cómo deducir la varianza de una variable usando un diagrama de caja. ¿Es al menos posible deducir si dos variables tienen la misma varianza observando su diagrama de caja?
Me preguntaba cómo deducir la varianza de una variable usando un diagrama de caja. ¿Es al menos posible deducir si dos variables tienen la misma varianza observando su diagrama de caja?
Respuestas:
No sin muchos supuestos estrictos, no. Si asumiera que la respuesta fue sí (en lugar de preguntar, por lo cual le aplaudo), apuesto a que podría engañarlo con este (contador) ejemplo:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
Se ve bastante similar, ¿verdad? ¡Sin embargo, !
En caso de que no esté claro en el código, la población 2
es:
-3.000 -2.650 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 2.650 3.000
Y no, no se puede deducir que esta población es normal solo porque es exactamente simétrica. Aquí hay una parcela QQ de población 2
:
Claro que no me parece normal.
Editar - Respuesta a su comentario:
La varianza es una estadística numérica. Si las variaciones de dos distribuciones son literalmente iguales, eso es todo lo que tienes que decir al respecto. Si dos distribuciones son exactamente normales , nuevamente, hay una definición matemática que ambas encajarán. Si dos distribuciones no son exactamente normales o iguales en varianza, no debe decir lo contrario. Si quiere decir que son aproximadamente iguales o normales, probablemente debería definir "lo suficientemente aproximado" de una manera que se adapte a sus propósitos, que no ha especificado aquí. La sensibilidad a las diferencias de distribución varía ampliamente entre los análisis que generalmente motivan preguntas como la suya. Por ejemplo,es bastante robusto para las violaciones de este último con tamaños de muestra iguales ), por lo que no recomendaría esa prueba para comparar mi población 2
con la población 1
(la distribución normal).
Esto ha sido bien respondido. Estos comentarios adicionales son demasiado largos (ACTUALIZACIÓN: ahora demasiado largos) como comentarios.
Estrictamente, todo lo que puede leer en un diagrama de caja sobre la variabilidad de una distribución es su rango intercuartil (la longitud o la altura de la caja) y el rango (la longitud o altura entre los extremos de la pantalla).
Como una aproximación, los gráficos de caja que parecen idénticos probablemente tengan variaciones muy similares, pero ten cuidado. Las parcelas de cajas con posiciones de caja o colas muy diferentes (o ambas) son más improbables de tener variaciones similares, pero no es imposible. Pero incluso si las gráficas de caja parecen idénticas, no se obtiene información en una gráfica de caja simple o vainilla sobre la variabilidad dentro de la caja o la variabilidad dentro de los bigotes (las líneas a menudo se muestran entre la caja y los puntos de datos dentro de 1.5 IQR del cuartil más cercano) . NB existen varias variantes de diagramas de caja; los autores a menudo son pobres para documentar las reglas precisas utilizadas por su software.
La popularidad del diagrama de caja tiene su precio. Los gráficos de caja pueden ser muy útiles para mostrar las características generales de muchos grupos o variables (digamos 20 o 30, a veces incluso más). Como se usa comúnmente para comparar, digamos 2 o 3 grupos, están sobrevendidos, en mi opinión, ya que otras parcelas pueden mostrar muchos más detalles de manera inteligible en el mismo espacio. Naturalmente, esto es ampliamente apreciado, si no universalmente, y varias mejoras del diagrama de caja muestran más detalles.
El trabajo serio con variaciones requiere acceso a datos originales.
Este es un pincel amplio, y se podrían agregar más detalles. Por ejemplo, la posición de la mediana dentro del cuadro a veces da un poco más de información.
ACTUALIZAR
Supongo que muchas más personas están interesadas en los usos (y limitaciones) de las gráficas de caja en general que en la cuestión específica de inferir la varianza de una gráfica de caja (a lo que la respuesta corta es "No puede, excepto indirectamente, aproximadamente, y a veces "), por lo que añadiré más comentarios sobre alternativas, según lo solicite @Christian Sauer.
Los histogramas utilizados con sensatez a menudo son competitivos El texto introductorio clásico moderno de Freedman, Pisani y Purves los usa en todas partes.
Lo que se conocen como diagramas de puntos o franjas (gráficos) (y por muchos otros nombres) son fáciles de entender. Se pueden apilar puntos idénticos, después de la agrupación si se desea. Puede agregar medianas y cuartiles, o intervalos medios y de confianza, al contenido de su corazón.
Las tramas cuantiles son, al parecer, un gusto adquirido, pero en muchos sentidos el más versátil de todos. Incluyo aquí gráficas de valores ordenados nuevamente probabilidad acumulativa (posición de trazado) así como gráficas cuantiles que serían rectas si los datos fueran considerados cualquier distribución de "marca" (normal, exponencial, gamma, lo que sea). (Agradecimientos a @Scortchi por la referencia a "nombre de marca" como lo usa CJ Geyer).
Pero una lista completa no es posible. (Agregaré, por ejemplo, que muy ocasionalmente, una representación de tallo y hoja es exactamente correcta para ver detalles importantes en los datos, como cuando la preferencia de dígitos es desenfrenada). El principio clave es que los mejores tipos de diagrama de distribución permiten la percepción aparentemente imposible de una estructura fina en los datos que podría ser interesante o importante (modalidad, granularidad, valores atípicos, etc.), así como una estructura gruesa (nivel, dispersión, sesgo, etc.).
Los diagramas de caja no son igualmente buenos para mostrar todo tipo de estructura. No pueden ser, y no fueron destinados a ser. Vale la pena señalar que JW Tukey en Análisis de datos exploratorios Reading, MA: Addison-Wesley (1977) dio un ejemplo de datos bimodales de Rayleigh que un diagrama de caja oscurece por completo la estructura principal. Como gran estadístico, sabía muy bien que los diagramas de cajas no siempre eran la respuesta.
Una práctica extraña, generalizada en textos introductorios, es discutir ANOVA al tiempo que invita a los lectores a mirar diagramas de cajas, que muestran medianas y cuartiles, no medios y variaciones (más bien SD). Naturalmente, mirar los datos es mucho mejor que no mirar, pero aun así, una representación gráfica más apropiada es posiblemente una gráfica de los datos en bruto con medias ajustadas +/- algún múltiplo apropiado de SE.
Un enfoque ingenuo:
Y sobre la comparación de las variaciones por diagrama de caja: los cuadros más anchos significan variaciones más grandes, pero eso le da una comprensión exploratoria, y debe tener en cuenta también los bigotes y los valores atípicos. Para la confirmación, debe utilizar el contraste de hipótesis.