En una prueba t de una muestra, ¿qué sucede si en el estimador de varianza la media de la muestra se reemplaza por


10

Suponga una prueba t de una muestra, donde la hipótesis nula es . La estadística es entonces usando la desviación estándar de muestra . Al estimar , uno compara las observaciones con la media muestral : t = ¯ x - μ 0μ=μ0 ss¯xt=x¯μ0s/nssx¯

s=1n1i=1n(xix¯)2 .

Sin embargo, si suponemos que un determinado es verdadero, también se podría estimar la desviación estándar utilizando lugar de la media de la muestra :s μ 0 ¯ xμ0sμ0x¯

s=1n1i=1n(xiμ0)2 .

Para mí, este enfoque parece más natural ya que, en consecuencia, utilizamos la hipótesis nula también para estimar la DE. ¿Alguien sabe si la estadística resultante se utiliza en una prueba o sabe, por qué no?


Seguí esta pregunta porque estaba a punto de publicarla y SE me advirtió. Me preguntaba si hay documentos de referencia sobre esta cuestión. Intuitivamente, definitivamente sería una mejor estimación de , y la distribución de podría derivarse (no un Estudiante, presumiblemente). Cualquier referencia será apreciada! σ2 ˉ x -μ0s2=1n(xiμ0)2σ2x¯μ0s/n
AG

Respuestas:


6

Hubo un problema con la simulación original en esta publicación, que con suerte ahora está solucionada.

Si bien la estimación de la desviación estándar de la muestra tiende a crecer junto con el numerador a medida que la media se desvía de , esto no tiene un efecto tan grande en la potencia a niveles de significación "típicos", porque en muestras medianas a grandes, todavía tiende a ser lo suficientemente grande como para rechazar. Sin embargo, en muestras más pequeñas puede tener algún efecto, y en niveles de significancia muy pequeños esto podría volverse muy importante, ya que colocará un límite superior en la potencia que será menor que 1.s / μ0s/n

Un segundo problema, posiblemente más importante en los niveles de significancia "comunes", parece ser que el numerador y el denominador de la estadística de prueba ya no son independientes en el valor nulo (el cuadrado de está correlacionado con la estimación de la varianza) .x¯μ

Esto significa que la prueba ya no tiene una distribución t debajo de nulo. No es un defecto fatal, pero significa que no puede simplemente usar tablas y obtener el nivel de significancia que desea (como veremos en un minuto). Es decir, la prueba se vuelve conservadora y esto impacta el poder.

A medida que n aumenta, esta dependencia se vuelve menos problemática (no menos importante porque puede invocar el CLT para el numerador y usar el teorema de Slutsky para decir que hay una distribución normal asintótica para la estadística modificada).

Aquí está la curva de potencia para una t de dos muestras ordinaria (curva púrpura, prueba de dos colas) y para la prueba usando el valor nulo de en el cálculo de (puntos azules, obtenidos mediante simulación y usando tablas t), como la media poblacional se aleja del valor hipotético, para : s n = 10μ0sn=10

n = 10

ingrese la descripción de la imagen aquí

Puede ver que la curva de potencia es más baja (empeora mucho con tamaños de muestra más bajos), pero gran parte de eso parece deberse a que la dependencia entre numerador y denominador ha reducido el nivel de significancia. Si ajusta los valores críticos adecuadamente, habría poco entre ellos incluso en n = 10.

Y aquí está la curva de potencia nuevamente, pero ahora paran=30

n = 30

ingrese la descripción de la imagen aquí

Esto sugiere que en tamaños de muestra no pequeños no hay mucho entre ellos, siempre y cuando no necesite usar niveles de significancia muy pequeños.


9

nn1μ0

x¯μ0

x¯

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.