Si deseamos realizar una prueba t pareada, el requisito es (si entiendo correctamente) que la diferencia de medias entre las unidades de medida coincidentes se distribuirá normalmente.
En la prueba t pareada, eso se articula (AFAIK) en la demanda de que la diferencia entre las unidades de medida emparejadas se distribuirá normalmente (incluso si la distribución de cada uno de los dos grupos comparados no es normal).
Sin embargo, en una prueba t no apareada, no podemos hablar sobre la diferencia entre las unidades emparejadas, por lo que exigimos que las observaciones de los dos grupos sean normales para que la diferencia de su media sea normal. Lo cual me lleva a mi pregunta:
¿Es posible que dos distribuciones no normales se distribuyan normalmente? (y por lo tanto, cumplir con nuestro requisito necesario para realizar una prueba t no emparejada en ellos, nuevamente, hasta donde yo entiendo).
Actualización: (gracias a todos por las respuestas) Veo que la regla general que estamos buscando es, de hecho, que la diferencia de las medias será normal, lo que parece ser una buena suposición (bajo n lo suficientemente grande) debido al CLT. Esto es sorprendente para mí (no sorprendente, simplemente increíble), en cuanto a cómo funciona esto para la prueba t no emparejada, pero no funcionará tan bien para la prueba t de muestra única. Aquí hay un código R para ilustrar:
n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)
P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
y2 <- runif(n2, 0, 2*mean2)
MEAN[i] <- mean(y1) - mean(y2)
P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)
n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057 # "wrong" type I error
Gracias.