Esta es una pregunta de seguimiento a lo que Frank Harrell escribió aquí :
En mi experiencia, el tamaño de muestra requerido para que la distribución t sea precisa es a menudo mayor que el tamaño de muestra disponible. La prueba de rango con signo de Wilcoxon es extremadamente eficiente como dijiste, y es robusta, por lo que casi siempre la prefiero a la prueba t
Si lo entiendo correctamente, al comparar la ubicación de dos muestras no coincidentes, preferiríamos usar la prueba de suma de rango de Wilcoxon sobre la prueba t no emparejada, si nuestros tamaños de muestra son pequeños.
¿Existe una situación teórica en la que preferiríamos la prueba de suma de rangos de Wilcoxon sobre la prueba t no emparejada, incluso si los tamaños de muestra de nuestros dos grupos son relativamente grandes?
Mi motivación para esta pregunta proviene de la observación de que para una prueba t de muestra única, usarla para una muestra no tan pequeña de una distribución sesgada generará un error tipo I incorrecto:
n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error