¿Cuándo está bien escribir "asumimos una distribución normal" de una medición empírica?

Está arraigado en la enseñanza de disciplinas aplicadas, como la medicina, que las mediciones de cantidades biomédicas en la población siguen una "curva de campana" normal. Una búsqueda en Google de la la cadena "que supone una distribución normal" retornos resultados! Parecen, "dado el pequeño número de puntos de datos extremos, asumimos una distribución normal para las anomalías de temperatura" en un estudio sobre el cambio climático; o "asumimos una distribución normal de las fechas de eclosión de los pollitos" en un documento posiblemente menos polémico sobre pingüinos; o "asumimos una distribución normal de los choques de crecimiento del PIB" , $\small 23,900$ , ... Y otras cosas).

Recientemente, me encontré cuestionando el tratamiento de los datos de conteo como normalmente distribuidos debido a su naturaleza estrictamente positiva. Por supuesto, los datos de recuento son discretos, lo que hace que su normalidad sea aún más artificial. Pero incluso dejando de lado este último punto, ¿por qué las medidas empíricas continuas como el peso, la estatura o la concentración de glucosa, consideradas prototípicamente "continuas", deben considerarse normales? ¡No pueden tener observaciones negativas realizadas más que los conteos!

Entiendo que cuando la desviación estándar es sustancialmente más baja que la media, lo que indica pocos valores negativos ("verificación del rango del 95%") puede ser una suposición práctica, y los histogramas de frecuencia pueden ser compatibles si no están demasiado sesgados. Pero la pregunta no parecía trivial, y una búsqueda rápida arrojó cosas interesantes.

En Nature podemos encontrar la siguiente declaración en una carta de DF Heath : "Deseo señalar que para el análisis estadístico de ciertos tipos de datos, la suposición de que los datos provienen de una población normal generalmente es incorrecta, y que la alternativa la suposición de una distribución logarítmica normal es mejor. Esta alternativa es ampliamente utilizada por estadísticos, economistas y físicos, pero por alguna razón a menudo es ignorada por los científicos de otras disciplinas ".

Limpert señala que "el modelo logarítmico normal puede servir como una aproximación en el sentido de que muchos científicos perciben lo normal como una aproximación válida ahora" , al tiempo que señala el bajo poder de las pruebas de normalidad de bondad de ajuste y la dificultad para seleccionar la distribución correcta empíricamente cuando se trata de muestras pequeñas.

Por lo tanto, la pregunta es: "¿Cuándo es aceptable asumir una distribución normal de una medición empírica en las ciencias aplicadas sin más evidencia de apoyo?" Y, ¿por qué otras alternativas, como el log-normal, no lo han hecho, y probablemente simplemente no se van a apoderar?

— Antoni Parellada
fuente

La respuesta dependería de qué tipo de cosas estás haciendo y la sensibilidad que tiene a las posibles desviaciones de la normalidad (es decir, si estás probando la igualdad de varianzas usando una prueba F de la relación, será mejor que tengas distribuciones que sean muy cerca de lo normal ... pero si estaba construyendo un intervalo t para la diferencia de medias, con muestras grandes, es posible que no necesite tenerlas muy cerca de la normalidad). ... y en su tolerancia (o la de su audiencia) para el tipo de impacto que tendría en la inferencia que está haciendo.

— Glen_b -Reinstalar Monica

Encuentro tu pregunta realmente interesante. Tengamos algunas cosas en cuenta:

Decir que una variable observada es continua en la vida real siempre va a estar mal, porque es muy difícil medirlo de forma continua.
$N(\mu, \sigma^2)$ $(-\infty; +\infty)$ $f_X(x)$ $x = \mu - \sigma$ $x = \mu + \sigma$
$X$ $Y=log(X)$

Dicho esto, decir que cualquier variable observada sigue una distribución normal o Log-Normal suena un poco loco. En la práctica, lo que se hace es medir las desviaciones de las frecuencias observadas de las frecuencias esperadas, si esa variable proviene de una población normal (o de cualquier otra distribución). Si puede decir que esas desviaciones son simplemente aleatorias, porque está muestreando, entonces puede decir algo como que no hay suficiente evidencia para rechazar la hipótesis nula de que esta variable proviene de una población normal , que se traduce en que trabajaremos como si ( suponiendo que) la variable sigue una distribución normal .

Respondiendo a su primera pregunta, no creo que haya alguien tan valiente para decir que se supone que una variable se distribuye normalmente sin más evidencia . Para decir algo así, necesita al menos un diagrama qq, un histograma, una prueba de bondad de ajuste o una combinación de ellos.

$\chi^2$

— toneloy
fuente

Gracias por su respuesta, que toca muchos puntos clave. Sin embargo, tiendo a pensar que las cosas en el "mundo real" de las ciencias aplicadas están menos estructuradas, y a menudo se toma una tangente directa para asumir la normalidad.

— Antoni Parellada

Algo que no mencioné es la otra parte de la historia de la distribución normal: es la distribución límite de la estandarización de una suma de variables aleatorias iid, como se afirma en el teorema del límite central. Si puede decir que su variable es una suma de muchas variables aleatorias iid, como en el razonamiento detrás del movimiento browniano, entonces puede decir que es una variable aleatoria normal. Ese es el único atajo válido que conozco. Puedo incluir esto en la respuesta si quieres.

— toneloy