"¿Cuál es la forma correcta de aplicar 68-95-99.7 a mi caso?"
Uno debería esperar esa regla general para que la cobertura se aplique exactamente solo si está (1) mirando la población completa (infinita) o la distribución de probabilidad teórica , y (2) la distribución es exactamente normal .
Si toma una muestra aleatoria de tamaño 20, incluso de una distribución genuinamente normal, no siempre encontrará que el 95% de los datos (19 de los 20 ítems) se encuentran dentro de 2 (o 1.960) desviaciones estándar de la media. De hecho, no se garantiza que 19 de los 20 ítems se encuentren dentro de 1.960 desviaciones estándar de la población de la media de la población, ni que 19 de los 20 ítems se encuentren dentro de 1.960 desviaciones estándar de la muestra de la media.
Si toma una muestra de datos de una distribución que no está distribuida normalmente, entonces uno no esperaría que la regla 68-95-99.7 se aplique exactamente. Pero puede estar razonablemente cerca de hacerlo, particularmente si el tamaño de la muestra es grande (la regla general de "cobertura del 99.7%" puede no ser especialmente significativa con un tamaño de muestra por debajo de 1000) y la distribución es razonablemente cercana a la normalidad. En teoría, muchos datos, como la altura o el peso, no pueden provenir de una distribución normal precisa o eso implicaría una probabilidad pequeña, pero no nula, de que sean negativos. Sin embargo, para datos con una distribución aproximadamente simétrica y unimodal, donde los valores medios son más comunes y los valores extremadamente altos o bajos disminuyen en probabilidad, el modelo de una distribución normal puede ser adecuado para fines prácticos.Si mi histograma muestra una curva en forma de campana, ¿puedo decir que mis datos se distribuyen normalmente?
Si desea límites teóricamente vinculantes que se apliquen a cualquier distribución, vea la desigualdad de Chebyshev , que establece que, como máximo, de los valores puede ser mayor que k1 / k2kdesviaciones estándar de la media. Esto garantiza que al menos el 75% de los datos se encuentran dentro de dos desviaciones estándar de la media, y el 89% dentro de tres desviaciones estándar. Pero esas cifras son solo el mínimo teóricamente garantizado. Para muchas distribuciones más o menos en forma de campana, encontrará que la cifra de cobertura de desviación de dos estándares se acerca mucho más al 95% que al 75%, por lo que la "regla general" de la distribución normal sigue siendo útil. Por otro lado, si sus datos provienen de una distribución que no tiene forma de campana, es posible que pueda encontrar un modelo alternativo que describa mejor los datos y tenga una regla de cobertura diferente.
(Una cosa que es agradable acerca de la regla 68-95-99.7 es que se aplica a cualquier distribución normal, independientemente de sus parámetros para la media o la desviación estándar. Del mismo modo, la desigualdad de Chebyshev se aplica independientemente de los parámetros, o incluso de la distribución, aunque solo proporciona límites inferiores para la cobertura. Pero si aplica, por ejemplo, un modelo normal truncado o sesgado , entonces no hay un equivalente simple de cobertura "68-95-99.7", porque dependería de los parámetros de la distribución .)