Mientras hacía EDA decidí usar un diagrama de caja para ilustrar la diferencia entre dos niveles de un factor.
La forma en que ggplot representó el diagrama de caja fue satisfactoria, pero ligeramente simplista (primer diagrama a continuación). Mientras investigaba las características de los diagramas de caja, comencé a experimentar con muescas.
Entiendo que las muescas muestran el IC alrededor de la mediana, y que si las muescas de dos cuadros no se superponen, hay 'evidencia sólida', con un nivel de confianza del 95%, de que las medianas difieren.
En mi caso (segundo gráfico), las muescas no se superponen significativamente. Pero, ¿por qué la parte inferior de la caja en el lado derecho toma esa forma extraña?
Trazar los mismos datos en una violín no indicaba nada inusual sobre la densidad de probabilidad del violín correspondiente.
ggplot2
. También me gusta la idea de trazar los puntos de datos individuales, pero está frustrado en la medida en que los puntos dentro del cuadro oscuro se vuelven invisibles.