Como @whuber preguntó en los comentarios, una validación para mi NO categórico. editar: con la prueba shapiro, ya que la prueba ks de una muestra se usa de manera incorrecta. Whuber es correcto: para el uso correcto de la prueba de Kolmogorov-Smirnov, debe especificar los parámetros de distribución y no extraerlos de los datos. Sin embargo, esto es lo que se hace en paquetes estadísticos como SPSS para una prueba KS de una muestra.
Intenta decir algo sobre la distribución y desea verificar si puede aplicar una prueba t. Por lo tanto, esta prueba se realiza para confirmar que los datos no se apartan de la normalidad de manera suficientemente significativa como para invalidar los supuestos subyacentes del análisis. Por lo tanto, no le interesa el error tipo I, sino el error tipo II.
Ahora hay que definir "significativamente diferente" para poder calcular el mínimo n para una potencia aceptable (digamos 0.8). Con las distribuciones, eso no es sencillo de definir. Por lo tanto, no respondí la pregunta, ya que no puedo dar una respuesta sensata aparte de la regla general que uso: n> 15 yn <50. ¿Basado en qué? Básicamente se siente, así que no puedo defender esa elección aparte de la experiencia.
Pero sí sé que con solo 6 valores, su error tipo II está destinado a ser casi 1, lo que hace que su potencia sea cercana a 0. Con 6 observaciones, la prueba de Shapiro no puede distinguir entre una distribución normal, poisson, uniforme o incluso exponencial. Con un error tipo II casi 1, el resultado de su prueba no tiene sentido.
Para ilustrar las pruebas de normalidad con la prueba de shapiro:
shapiro.test(rnorm(6)) # test a the normal distribution
shapiro.test(rpois(6,4)) # test a poisson distribution
shapiro.test(runif(6,1,10)) # test a uniform distribution
shapiro.test(rexp(6,2)) # test a exponential distribution
shapiro.test(rlnorm(6)) # test a log-normal distribution
El único donde aproximadamente la mitad de los valores son menores que 0.05, es el último. Cuál es también el caso más extremo.
si quieres saber cuál es el mínimo n que te da el poder que te gusta con la prueba de shapiro, puedes hacer una simulación como esta:
results <- sapply(5:50,function(i){
p.value <- replicate(100,{
y <- rexp(i,2)
shapiro.test(y)$p.value
})
pow <- sum(p.value < 0.05)/100
c(i,pow)
})
que te da un análisis de poder como este:
de lo cual concluyo que necesita aproximadamente un mínimo de 20 valores para distinguir una distribución exponencial de una distribución normal en el 80% de los casos.
trama de código:
plot(lowess(results[2,]~results[1,],f=1/6),type="l",col="red",
main="Power simulation for exponential distribution",
xlab="n",
ylab="power"
)