¿Por qué la prueba F es tan sensible al supuesto de normalidad?

16

¿Por qué la prueba F para la diferencia de varianza es tan sensible al supuesto de distribución normal, incluso para grande ? $N$

Intenté buscar en la web y visité la biblioteca, pero nada de eso me dio buenas respuestas. Dice que la prueba es muy sensible por la violación del supuesto de distribución normal, pero no entiendo por qué. ¿Alguien tiene una buena respuesta para esto?

normality-assumption f-test

— Magnus Johannesen
fuente

66

¿En qué prueba

F

$F$ estás interesado?

— S. Kolassa - Restablece a Monica

Prueba F para medir la diferencia en la varianza.

— Magnus Johannesen

35

Supongo que se refiere a la prueba F para la relación de varianzas cuando se prueba un par de varianzas de muestra para igualdad (porque esa es la más simple que es bastante sensible a la normalidad; la prueba F para ANOVA es menos sensible)

Si sus muestras se extraen de distribuciones normales, la varianza muestral tiene una distribución de chi cuadrado escalada

Imagine que, en lugar de los datos extraídos de distribuciones normales, tiene una distribución más pesada de lo normal. Entonces obtendría demasiadas variaciones grandes en relación con esa distribución de chi-cuadrado escalada, y la probabilidad de que la varianza de la muestra salga a la cola derecha es muy sensible a las colas de la distribución de la que se extrajeron los datos =. (También habrá demasiadas variaciones pequeñas, pero el efecto es un poco menos pronunciado)

Ahora, si ambas muestras se extraen de esa distribución de cola más pesada, la cola más grande en el numerador producirá un exceso de valores F grandes y la cola más grande en el denominador producirá un exceso de valores F pequeños (y viceversa para la cola izquierda)

Ambos efectos tenderán a conducir al rechazo en una prueba de dos colas, aunque ambas muestras tengan la misma variación . Esto significa que cuando la distribución real es más pesada de lo normal, los niveles de significación reales tienden a ser más altos de lo que queremos.

Por el contrario, tomar una muestra de una distribución de cola más ligera produce una distribución de variaciones de muestra que es demasiado corta: los valores de variación tienden a ser más "medios" de lo que se obtiene con los datos de las distribuciones normales. Nuevamente, el impacto es más fuerte en la cola superior que en la inferior.

Ahora, si ambas muestras se extraen de esa distribución de cola más clara, esto da como resultado un exceso de valores F cerca de la mediana y muy pocos en cada cola (los niveles de significancia reales serán más bajos de lo deseado).

Estos efectos no parecen necesariamente reducirse mucho con un tamaño de muestra mayor; en algunos casos parece empeorar.

A modo de ilustración parcial, aquí hay 10000 varianzas muestrales (para $n=10$ ) para distribuciones normales, $t_5$ y uniformes, escaladas para tener la misma media que a $\chi^2_9$ :

Es un poco difícil ver la cola lejana ya que es relativamente pequeña en comparación con el pico (y para el $t_5$ las observaciones en la cola se extienden bastante más allá de donde hemos trazado), pero podemos ver algo del efecto en La distribución en la varianza. Quizás sea aún más instructivo transformarlos por el inverso del chi-cuadrado cdf,

que en el caso normal se ve uniforme (como debería), en el caso t tiene un pico grande en la cola superior (y un pico más pequeño en la cola inferior) y en el caso uniforme es más parecido a una colina pero con un ancho pico alrededor de 0.6 a 0.8 y los extremos tienen una probabilidad mucho menor de lo que deberían si estuviéramos tomando muestras de distribuciones normales.

$F_{9,9}$

$t_5$

Habría muchos otros casos para investigar para un estudio completo, pero esto al menos da una idea del tipo y la dirección del efecto, así como de cómo surge.

— Glen_b -Reinstate a Monica
fuente

1

Demostración realmente agradable

— shadowtalker

3

Como Glen_b ha ilustrado brillantemente en sus simulaciones, la prueba F para una relación de varianzas es sensible a las colas de la distribución. La razón de esto es que la varianza de una varianza de muestra depende del parámetro de curtosis, por lo que la curtosis de la distribución subyacente tiene un fuerte efecto en la distribución de la relación de las varianzas de muestra.

$S_N^2$ $S_n^2$ $n<N$ $^\dagger$

\frac{S_{norte}^{2}}{S_{norte}^{2}} \overset{Aprox.}{\sim} \frac{norte - 1}{norte - 1} + \frac{norte - norte}{norte - 1} \cdot F (re F_{C}, re F_{norte}),

$\frac{S_N^2}{S_n^2} \overset{\text{Approx}}{\sim} \frac{n-1}{N-1} + \frac{N-n}{N-1} \cdot F(DF_C, DF_n),$

donde los grados de libertad (que dependen de la curtosis subyacente $\kappa$

re F_{norte} = \frac{2 norte}{κ - (norte - 3) / / (norte - 1)} re F_{C} = \frac{2 (norte - norte)}{2 + (κ - 3) (1 - 2 / / norte + 1 / / norte norte)} .

$DF_n = \frac{2n}{\kappa - (n-3)/(n-1)} \quad \quad \quad DF_C = \frac{2(N-n)}{2+(\kappa-3)(1-2/N+1/Nn)}.$

En el caso especial de una distribución mesocurtica (por ejemplo, la distribución normal) tiene $\kappa=3$ , que proporciona los grados de libertad estándar $DF_n = n-1$ y $DF_C = N-n$ .

Although the distribution of the variance-ratio is sensitive to the underlying kurtosis, it is not actually very sensitive to normality per se. If you use a mesokurtic distribution with a different shape to the normal, you will find that the standard F-distribution approximation performs quite well. In practice the underlying kurtosis is unknown, so implementation of the above formula requires substitution of an estimator $\hat{\kappa}$ . With such a substitution the approximation should perform reasonably well.

$^\dagger$ Note that this paper defines the population variance using Bessel's correction (for reasons stated in the paper, pp. 282-283). So the denominator of the population variance is $N-1$ in this analysis, not $N$ . (This is actually a more helpful way to do things, since the population variance is then an unbiased estimator of the superopopulation variance parameter.)

— Reinstate Monica
fuente

+1 This is a very interesting post. Certainly with mesokurtic distributions it's harder to get the variance-ratio distribution to be as far away from the F as is possible with a full-range of distributional choice but it's not so hard to identify cases (at the sample size in my answer, 10 and 10) where the actual type I error rate is more than a little away from a nominal 0.05 rate. The first 3 cases that I tried (distributions with population kurtosis =3 -- all of them symmetric as well) had type I rejection rates of 0.0379, 0.0745 and 0.0785. ... ctd

— Glen_b -Reinstate Monica

ctd... I have little doubt that more extreme cases could be identified with a little thinking about how to make the approximation worse. I imagine that it (that the significance level would not be much affected) might hold better in larger samples, though.

— Glen_b -Reinstate Monica