¿Qué supuestos de normalidad se requieren para una prueba t no emparejada? ¿Y cuándo se encuentran?

12

Si deseamos realizar una prueba t pareada, el requisito es (si entiendo correctamente) que la diferencia de medias entre las unidades de medida coincidentes se distribuirá normalmente.

En la prueba t pareada, eso se articula (AFAIK) en la demanda de que la diferencia entre las unidades de medida emparejadas se distribuirá normalmente (incluso si la distribución de cada uno de los dos grupos comparados no es normal).

Sin embargo, en una prueba t no apareada, no podemos hablar sobre la diferencia entre las unidades emparejadas, por lo que exigimos que las observaciones de los dos grupos sean normales para que la diferencia de su media sea normal. Lo cual me lleva a mi pregunta:

¿Es posible que dos distribuciones no normales se distribuyan normalmente? (y por lo tanto, cumplir con nuestro requisito necesario para realizar una prueba t no emparejada en ellos, nuevamente, hasta donde yo entiendo).

Actualización: (gracias a todos por las respuestas) Veo que la regla general que estamos buscando es, de hecho, que la diferencia de las medias será normal, lo que parece ser una buena suposición (bajo n lo suficientemente grande) debido al CLT. Esto es sorprendente para mí (no sorprendente, simplemente increíble), en cuanto a cómo funciona esto para la prueba t no emparejada, pero no funcionará tan bien para la prueba t de muestra única. Aquí hay un código R para ilustrar:

n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000

# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)

P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    y2 <- runif(n2, 0, 2*mean2)
    MEAN[i] <- mean(y1) - mean(y2)
    P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)



n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)

for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}

par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057  # "wrong" type I error

Gracias.

t-test normality-assumption assumptions

— Tal Galili
fuente

55

Seguro . Deje ser su muestra bivariada de iid. Deje que tenga una distribución arbitraria y tome donde son iid .

(X_{i}, Y_{i})

$(X_i,Y_i)$

X_{i}

$X_i$

F

$F$

Y_{i} = X_{i} + Z_{i}

$Y_i = X_i + Z_i$

{Z_{i}}

$\{Z_i\}$

N (0, σ^{2})

$\mathcal{N}(0,\sigma^2)$

— cardenal

17

En la práctica, el Teorema del límite central nos asegura que, bajo una amplia gama de supuestos, las distribuciones de los dos medios de muestra que se están probando se acercarán a las distribuciones normales a medida que los tamaños de muestra aumentan, independientemente (aquí es donde entran los supuestos) de Las distribuciones de los datos subyacentes. Como consecuencia, a medida que el tamaño de la muestra aumenta, la diferencia de medias se distribuye normalmente y los requisitos necesarios para que el estadístico t de una prueba t no emparejada tenga la distribución nominal t satisfecha. Por lo tanto, una pregunta más práctica podría ser, ¿qué tan grande debe ser el tamaño de la muestra antes de que pueda ignorar con seguridad la diferencia entre la distribución real de la estadística y la distribución t?

En muchos casos, la respuesta es "no muy grande", especialmente cuando las distribuciones subyacentes son bastante simétricas. Por ejemplo, simulé 100,000 pruebas que comparaban las medias de dos distribuciones Uniformes (0,1), cada una con un tamaño de muestra de 10, y, al realizar pruebas al nivel de confianza del 95%, en realidad rechazaron el nulo el 5,19% del tiempo, apenas diferente del índice de rechazo nominal del 5% que esperamos (aunque es aproximadamente 2.7 desviaciones estándar por encima del 5%).

Esta es la razón por la cual las personas usan la prueba t en todo tipo de situaciones en las que los supuestos subyacentes no se cumplen realmente, pero, por supuesto, su millaje puede variar, dependiendo de los detalles de su problema. Sin embargo, hay otras pruebas que no requieren Normalidad, como la prueba de Wilcoxon, que, incluso cuando los datos se distribuyen normalmente, es, asintóticamente, aproximadamente un 95% tan eficiente como la prueba t (es decir, requiere un tamaño de muestra de N / 0.95 para tener la misma potencia que una prueba t con un tamaño de muestra de N, ya que N va al infinito). Cuando los datos no se distribuyen normalmente, pueden ser (no necesariamente serán) mucho mejores que la prueba t.

— jbowman
fuente

66

En mi experiencia, el tamaño de muestra requerido para que la distribución sea precisa es a menudo mayor que el tamaño de muestra disponible. La prueba de rango con signo de Wilcoxon es extremadamente eficiente como dijiste, y es robusta, por lo que casi siempre la prefiero a la prueba .

t

$t$

t

$t$

— Frank Harrell

Gracias Frank: tu comentario me ayudó a articular una pregunta que está más cerca de lo que busco

— Tal Galili

1

Por supuesto. Si este no fuera el caso, entonces la prueba t de muestras independientes no sería de mucha utilidad. Sin embargo, realmente necesitamos tamaños de muestra más grandes porque para que podamos comprobar la diferencia de medias entre dos poblaciones no normales, debemos apelar al CLT.

Para un ejemplo rápido, supongamos que tenemos una población 1 proveniente de una exponencial con media 25 y una población 2 distribuida uniformemente con media 30. Incluso les daremos diferentes tamaños de muestra. Podemos examinar cómo se ve la distribución de las diferencias en las muestras usando R con relativa facilidad utilizando la función replicar.

n1 <- 30
n2 <- 25
mean1 <- 25
mean2 <- 30

diffs <- replicate(10000, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
hist(diffs)

Jugar con los tamaños de muestra mostrará que en tamaños de muestra bajos realmente no tenemos normalidad, pero aumentar el tamaño de la muestra nos da una distribución de muestreo de aspecto más normal para la diferencia de medias. Por supuesto, podría cambiar las distribuciones utilizadas en este ejemplo para explorar más a fondo. hist (diffs)

— Razón
fuente