Un diagrama de caja tiene la intención de resumir un conjunto relativamente pequeño de datos de una manera que muestre claramente
Un valor central.
La difusión de los valores "típicos".
Valores individuales que se apartan tanto del valor central, en relación con la propagación, que se seleccionan para una atención especial y se identifican por separado (por nombre, por ejemplo). Estos se denominan "valores identificados".
Esto se debe hacer de una manera robusta : eso significa que el diagrama de caja no debería verse apreciablemente diferente cuando uno, o una porción relativamente pequeña, de los valores de datos se cambia arbitrariamente.
La solución adoptada por su inventor John Tukey es utilizar las estadísticas de pedidos, los datos ordenados de menor a mayor, de manera sistemática. Para simplificar (hizo cálculos mentales o con lápiz y papel) Tukey se centró en las medianas : los valores medios de los lotes de números. (Para lotes con recuentos pares, Tukey utilizó el punto medio de los dos valores medios). Una mediana es resistente a los cambios en hasta la mitad de los datos en los que se basa, por lo que es excelente como estadística robusta. Así:
El valor central se estima con la mediana de todos los datos.
La propagación se estima con la diferencia entre las medianas de la "mitad superior", todos los datos iguales o superiores a la mediana, y la "mitad inferior", todos los datos iguales o inferiores a la mediana. Estas dos medianas se denominan "bisagras" o "cuartos" superiores e inferiores. En la actualidad, tienden a ser reemplazados por cosas llamadas cuartiles (que no tienen una definición universal, por desgracia).
Las cercas invisibles para la detección de valores atípicos se levantan 1.5 y 3 veces más allá de las bisagras (lejos del valor central).
- "El valor en cada extremo más cercano, pero aún dentro, la cerca interna es 'adyacente'".
- Los valores más allá de la primera valla se denominan "valores atípicos".
- Los valores más allá de la segunda valla están "lejos".
(Los que tengan la edad suficiente para recordar el argot hippie de los años 60 entenderán la broma).
Como la extensión es una diferencia de los valores de los datos, estas cercas tienen las mismas unidades de medida que los datos originales: este es el sentido de "distancia" en la pregunta.
En cuanto a los valores de datos para identificar, Tukey escribió
Al menos podemos identificar los valores extremos, y podríamos identificar algunos más.
Cualquier método gráfico para mostrar la mediana, las bisagras y los valores identificados merece ser llamado "diagrama de caja" (originalmente, "diagrama de caja y bigotes"). Las cercas generalmente no están representadas. El diseño de Tukey consiste en un rectángulo que describe las bisagras con una "cintura" en la mediana. Los "bigotes" discretos en forma de línea se extienden hacia afuera desde las bisagras hasta los valores más internos identificados (tanto arriba como debajo de la caja). Por lo general, estos valores identificados más internos son los valores adyacentes definidos anteriormente.
En consecuencia, la apariencia predeterminada de un diagrama de caja es extender los bigotes a los valores de datos no periféricos más extremos e identificar (a través de etiquetas de texto) los datos que comprenden los extremos de los bigotes y todos los valores atípicos. Por ejemplo, el volcán Tupungatito es el valor adyacente alto para los datos de las alturas del volcán representados a la derecha de la figura: el bigote se detiene allí. Tupungatito y todos los volcanes más altos se identifican por separado.
Para que esto muestre los datos fielmente, la distancia en el gráfico es proporcional a las diferencias en los valores de los datos. (Cualquier desviación de la proporcionalidad directa introduciría un "Factor de mentira" en la terminología de Tufte (1983)).
Estas dos gráficas de caja del libro EDA de Tukey (p. 41) ilustran los componentes. Es de destacar que ha identificado valores no periféricos en los extremos superior e inferior del conjunto de datos de los Estados a la izquierda y un valor no periférico bajo de las alturas del volcán a la derecha. Esto ejemplifica la interacción de las reglas y el juicio que impregna el libro.
(Puede decir que estos datos identificados no son periféricos, porque puede estimar la ubicación de las cercas. Por ejemplo, las bisagras de las alturas estatales están cerca de 11,000 y 1,000, dando una extensión de alrededor de 10,000. Multiplicar por 1.5 y 3 da distancias de 15,000 y 30,000. Por lo tanto, la cerca superior invisible debe estar cerca de 11,000 + 15,000 = 26,000 y la cerca inferior, en 1,000 - 15,000, estaría debajo de cero. Las cercas distantes estarían cerca de 11,000 + 30,000 = 41,000 y 1,000 - 30,000 = -29,000.)
Referencias
Tufte, Edward. La visualización de la información cuantitativa. Prensa de Cheshire, 1983.
Tukey, John. Capítulo 2, EDA . Addison-Wesley, 1977.