Distribución normal y transformaciones monotónicas.


9

He oído que muchas cantidades que ocurren en la naturaleza normalmente se distribuyen. Esto generalmente se justifica usando el teorema del límite central, que dice que cuando promedia un gran número de variables aleatorias iid, obtiene una distribución normal. Entonces, por ejemplo, un rasgo que está determinado por el efecto aditivo de un gran número de genes puede distribuirse aproximadamente de manera normal, ya que los valores de los genes pueden comportarse más o menos como las variables aleatorias.

Ahora, lo que me confunde es que la propiedad de ser distribuido normalmente claramente no es invariable bajo transformaciones monótonas. Entonces, si hay dos formas de medir algo relacionado con una transformación monotónica, es poco probable que ambas se distribuyan normalmente (a menos que esa transformación monotónica sea lineal). Por ejemplo, podemos medir los tamaños de las gotas de lluvia por diámetro, por área de superficie o por volumen. Asumiendo formas similares para todas las gotas de lluvia, el área de superficie es proporcional al cuadrado del diámetro, y el volumen es proporcional al cubo del diámetro. Entonces, todas estas formas de medición no pueden distribuirse normalmente.

Entonces, mi pregunta es si la forma particular de escalar (es decir, la elección particular de la transformación monotónica) bajo la cual la distribución se vuelve normal, debe tener un significado físico. Por ejemplo, ¿deberían las alturas estar distribuidas normalmente o el cuadrado de la altura, o el logaritmo de la altura, o la raíz cuadrada de la altura? ¿Hay alguna manera de responder esa pregunta entendiendo los procesos que afectan la altura?


Como siempre lo entendí, el teorema del límite central no postula algo sobre el promedio de un gran número de variables aleatorias iid. Más bien, establece que cuando el muestreo significa, la distribución de los medios se vuelve normal (independiente de la distribución subyacente de lo que se toma la muestra). Entonces, me pregunto si el antecedente de su pregunta es válido.
Henrik

Pero, si la media de muestreo se vuelve normal, independientemente de la distribución de la distribución subyacente, entonces no es lo mismo que decir 'promediar un gran número de variables aleatorias iid' nos da una distribución normal. Para mí, parecen ser declaraciones equivalentes.

No en mis ojos (pero me gustaría estar convencido de lo contrario). En el primer caso (el que creo que significa CLT), extrae muestras de una distribución. Sus medios se distribuyen normalmente. Lo que entiendo de la pregunta y la cita "promediar un gran número de variables aleatorias iid" es algo diferente: las instancias individuales de diferentes variables aleatorias iid determinan (o inventan) un rasgo. Por lo tanto, no hay promedios (es decir, calcular una media) de una sola distribución y, por lo tanto, no se aplica CLT. Creo que las respuestas de mbq apuntan al mismo problema.
Henrik

1
Bueno, la distribución no necesita ser idéntica si se cumplen algunas condiciones. Ver: en.wikipedia.org/wiki/…

1
@Henrik ¿Hay alguna diferencia significativa entre una sola muestra de cada uno de N RV independientes e idénticamente distribuidos y N mediciones independientes de un solo RV?
walkytalky

Respuestas:


5

Muy buena pregunta Creo que la respuesta depende de si puede identificar el proceso subyacente que da lugar a la medición en cuestión. Si, por ejemplo, tiene evidencia de que la altura es una combinación lineal de varios factores (por ejemplo, altura de los padres, altura de los abuelos, etc.), sería natural suponer que la altura se distribuye normalmente. Por otro lado, si tiene evidencia o incluso la teoría de que el registro de altura es una combinación lineal de varias variables (por ejemplo, registro de alturas de padres, registro de alturas de abuelos, etc.), el registro de altura se distribuirá normalmente.

En la mayoría de las situaciones, no conocemos el proceso subyacente que impulsa la medición del interés. Por lo tanto, podemos hacer una de varias cosas:

(a) Si la distribución empírica de las alturas parece normal, entonces usamos la densidad normal para un análisis posterior que implícitamente asume que la altura es una combinación lineal de varias variables.

(b) Si la distribución empírica no parece normal, entonces podemos intentar alguna transformación como lo sugiere mbq (por ejemplo, log (altura)). En este caso, suponemos implícitamente que la variable transformada (es decir, log (altura)) es una combinación lineal de varias variables.

(c) Si (a) o (b) no ayudan, entonces tenemos que abandonar las ventajas que CLT y un supuesto de normalidad nos dan y modelar la variable usando alguna otra distribución.


5

El cambio de escala de una variable particular debería, cuando sea posible, relacionarse con alguna escala comprensible por la razón de que ayuda a hacer que el modelo resultante sea interpretable. Sin embargo, la transformación resultante no necesita tener absolutamente un significado físico. Esencialmente, debe comprometerse en una compensación entre la violación del supuesto de normalidad y la interpretabilidad de su modelo. Lo que me gusta hacer en estas situaciones es tener los datos originales, los datos transformados de una manera que tenga sentido y los datos transformados de la manera más normal. Si los datos transformados de una manera que tiene sentido son los mismos que los resultados cuando los datos se transforman de una manera que lo hace más normal, Lo informo de una manera que es interpretable con una nota al margen de que los resultados son los mismos en el caso de los datos óptimamente transformados (y / o no transformados). Cuando los datos no transformados se comportan particularmente mal, realizo mis análisis con los datos transformados pero hago todo lo posible para informar los resultados en unidades no transformadas.

Además, creo que tiene una idea errónea en su afirmación de que "las cantidades que ocurren en la naturaleza normalmente se distribuyen". Esto solo es cierto en los casos en que el valor está "determinado por el efecto aditivo de un gran número" de factores independientes. Es decir, las medias y sumas normalmente se distribuyen independientemente de la distribución subyacente de la que se extraen, donde no se espera que los valores individuales se distribuyan normalmente. Como fue el ejemplo, los sorteos individuales de una distribución binomial no parecen normales, pero una distribución de las sumas de 30 sorteos de una distribución binomial parece bastante normal.


5

Debo admitir que realmente no entiendo tu pregunta:

  • su ejemplo de gotas de lluvia no es muy satisfactorio ya que esto no ilustra el hecho de que el comportamiento gaussiano proviene del "promedio de un gran número de variables aleatorias iid".

  • XY1+...+YnortenorteF(Y1)+...+F(Ynorte)norte

  • XF(X)

  • ¿Podría citar algunos ejemplos verdaderos del comportamiento gaussiano (de la vida real) provenientes del promedio: esto no es muy común! El comportamiento gaussiano se usa a menudo en estadística como una primera aproximación aproximada porque los cálculos son muy manejables. Como los físicos usan la aproximación armónica, los estadísticos usan la aproximación gaussiana.


El principio de máxima entropía es también otra razón por la cual se utiliza la distribución gaussiana. Por ejemplo, ¿cuáles son las buenas razones para usar los errores gaussianos en el modelo lineal, excepto la trazabilidad?
Alekk

5

Vipul, no estás siendo totalmente preciso en tu pregunta.

Esto generalmente se justifica usando el teorema del límite central, que dice que cuando promedia un gran número de variables aleatorias iid, obtiene una distribución normal.

No estoy completamente seguro de que esto sea lo que estás diciendo, pero ten en cuenta que las gotas de lluvia en tu ejemplo no son variables aleatorias. La media calculada mediante el muestreo de un cierto número de esas gotas de lluvia es una variable aleatoria, y como las medias se calculan utilizando un tamaño de muestra lo suficientemente grande, la distribución de esa media muestral es normal.

La ley de los grandes números dice que el valor de la media de la muestra converge con el valor promedio de la población (fuerte o débil según el tipo de convergencia).

El CLT dice que la media de la muestra, llámela XM (n), que es una variable aleatoria, tiene una distribución, digamos G (n). A medida que n se acerca a la inflexidad, esa distribución es la distribución normal. CLT tiene que ver con la convergencia en la distribución , no un concepto básico.

Las observaciones que dibuje (diámetro, área, volumen) no tienen que ser normales en absoluto. Probablemente no lo serán si los tramas. Pero, la media muestral de tomar las tres observaciones tendrá una distribución normal. Y, el volumen no será el cubo del diámetro, ni el área será el cuadrado del diámetro. El cuadrado de las sumas no será la suma de los cuadrados, a menos que tenga una suerte extraña.


4

Simplemente CLT (ni ningún otro teorema) no establece que cada cantidad en el universo esté normalmente distribuida. De hecho, los estadísticos a menudo usan transformaciones monótonas para mejorar la normalidad, por lo que podrían usar sus herramientas favoritas.


4

Creo que entendiste mal (la mitad del) uso estadístico de la distribución normal, pero realmente me gusta tu pregunta.

No creo que sea una buena idea asumir sistemáticamente la normalidad y admito que se hace en algún momento (tal vez porque la distribución normal es manejable, unimodal ...) sin verificación. Por lo tanto, su comentario sobre el mapa monotónico es excelente.

Sin embargo, el uso poderoso de la normalidad se produce cuando construyes nuevas estadísticas como la que aparece cuando aplicas la contraparte empírica de la expectativa: la media empírica . Por lo tanto, la media empírica y el suavizado más general es lo que hace que la normalidad aparezca en todas partes ...


2

Tanto una variable aleatoria como muchas transformaciones de esta pueden ser aproximadamente normales; de hecho, si la varianza es pequeña en comparación con la media, puede ser que una gran variedad de transformaciones parezca bastante normal.

> a<-rgamma(10000,1000,1000)
> hist(a)
> hist(1/a)
> hist(a^2)
> hist(a^(3/2))

4 histogramas que muestran casi normalidad

( haga clic para una versión más grande )

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.