Hubo un problema con la simulación original en esta publicación, que con suerte ahora está solucionada.
Si bien la estimación de la desviación estándar de la muestra tiende a crecer junto con el numerador a medida que la media se desvía de , esto no tiene un efecto tan grande en la potencia a niveles de significación "típicos", porque en muestras medianas a grandes, todavía tiende a ser lo suficientemente grande como para rechazar. Sin embargo, en muestras más pequeñas puede tener algún efecto, y en niveles de significancia muy pequeños esto podría volverse muy importante, ya que colocará un límite superior en la potencia que será menor que 1.s ∗ / √μ0 0s∗/ n--√
Un segundo problema, posiblemente más importante en los niveles de significancia "comunes", parece ser que el numerador y el denominador de la estadística de prueba ya no son independientes en el valor nulo (el cuadrado de está correlacionado con la estimación de la varianza) .X¯- μ
Esto significa que la prueba ya no tiene una distribución t debajo de nulo. No es un defecto fatal, pero significa que no puede simplemente usar tablas y obtener el nivel de significancia que desea (como veremos en un minuto). Es decir, la prueba se vuelve conservadora y esto impacta el poder.
A medida que n aumenta, esta dependencia se vuelve menos problemática (no menos importante porque puede invocar el CLT para el numerador y usar el teorema de Slutsky para decir que hay una distribución normal asintótica para la estadística modificada).
Aquí está la curva de potencia para una t de dos muestras ordinaria (curva púrpura, prueba de dos colas) y para la prueba usando el valor nulo de en el cálculo de (puntos azules, obtenidos mediante simulación y usando tablas t), como la media poblacional se aleja del valor hipotético, para : s n = 10μ0 0sn = 10
n = 10
Puede ver que la curva de potencia es más baja (empeora mucho con tamaños de muestra más bajos), pero gran parte de eso parece deberse a que la dependencia entre numerador y denominador ha reducido el nivel de significancia. Si ajusta los valores críticos adecuadamente, habría poco entre ellos incluso en n = 10.
Y aquí está la curva de potencia nuevamente, pero ahora paran = 30
n = 30
Esto sugiere que en tamaños de muestra no pequeños no hay mucho entre ellos, siempre y cuando no necesite usar niveles de significancia muy pequeños.