R, como muchos programas, pero no todos, utiliza principalmente la definición * de Tukey de cómo dibujar un diagrama de caja.
La muestra original completa se usa para calcular las bisagras (donde se dibujan los extremos de la caja).
Las bisagras son muy similares a los cuartiles (se podría decir que son una forma particular de calcular los cuartiles superior e inferior que difieren ligeramente de las definiciones más habituales de cuartiles, aunque también hay varias definiciones diferentes de cuartiles de muestra; de hecho, R ofrece nueve cálculos de cuartil distintos, sin contar las bisagras).
La bisagra superior está en la mediana de la mitad superior de los datos (la mitad superior incluye la mediana de la muestra original si era un punto de datos) y la bisagra inferior está en la mediana de la mitad inferior (que también incluye la mediana de la muestra original si estaba en un punto de datos):
Entonces, por ejemplo, con 6 observaciones, las bisagras son la segunda observación más grande y la quinta más grande (3 puntos en cada mitad). Con 9 observaciones, las bisagras son la tercera y la octava más grandes (5 puntos en cada mitad, la mediana viene en ambas mitades). Con 11 observaciones, la bisagra inferior está a medio camino entre la tercera y la cuarta observación más grande y la bisagra superior está a medio camino entre la octava y la novena observación más grande (6 puntos en cada mitad). La ilustración muestra el caso con 13 observaciones.
Tenga en cuenta que los cuartiles (/ bisagras) no son en absoluto sensibles a los valores de los valores atípicos, solo al hecho de que están fuera de los cuartiles. Puede moverlos todos cerca de los extremos de la caja (para que no haya valores atípicos) sin cambiar los cuartiles / bisagras, o tan lejos como desee (para que estén todos muy lejos), nuevamente sin cambiar los valores de los cuartiles . Así que realmente no habría necesidad de hacer nada cuando haya un "valor atípico".
* O más bien, uno de ellos; Tukey dio varias definiciones, aunque para los propósitos actuales solo necesitamos preocuparnos sobre cómo funciona el cálculo de las bisagras; Digo sobre todo porque la versión con "valores atípicos" sería lo que Tukey llamó un diagrama esquemático, pero no hacen el que tiene dos tipos distintos de marcas "atípicas".