Elegir entre -test y -test

Antecedentes: estoy dando una presentación a mis colegas en el trabajo sobre la prueba de hipótesis, y entiendo bien la mayoría de ellos, pero hay un aspecto que me estoy haciendo un nudo tratando de entender y explicar a los demás.

Esto es lo que creo que sé (¡corríjalo si está equivocado!)

Estadísticas que serían normales si se conociera la varianza, siga una distribución si la varianza es desconocida $t$
CLT (Teorema del límite central): la distribución muestral de la media muestral es aproximadamente normal para suficientemente grande (podría ser , podría ser hasta para distribuciones muy sesgadas) $n$ $30$ $300$
La distribución puede considerarse Normal para grados de libertad $t$ $> 30$

Utiliza la prueba si: $z$

Población normal y varianza conocida (para cualquier tamaño de muestra)
Población normal, varianza desconocida (debido a CLT) $n>30$
poblacional, , $np>10$ $nq>10$

Utiliza la prueba si: $t$

Población normal, varianza desconocida $n<30$
No se conoce la población o la varianza , pero los datos de la muestra parecen normales / pasan las pruebas, etc., por lo que se puede suponer que la población es normal $n<30$

Entonces me queda con:

Para muestras y (?), No se conoce / desconoce la población y la varianza. $>30$ $<\approx 300$

Entonces mis preguntas son:

¿A qué tamaño de muestra puede suponer (donde no hay conocimiento sobre la distribución o la varianza de la población) que la distribución muestral de la media es normal (es decir, CLT ha comenzado) cuando la distribución muestral parece no normal? Sé que algunas distribuciones necesitan , pero algunos recursos parecen decir que use la prueba siempre que ... $n>300$ $z$ $n>30$
Para los casos de los que no estoy seguro, supongo que miro los datos para ver si hay normalidad. Ahora, si los datos de la muestra parecen normales, ¿uso la prueba (ya que supongo que la población es normal y desde )? $z$ $n>30$
¿Qué pasa con los datos de muestra para casos de los que no estoy seguro? ¿Hay alguna circunstancia en la que todavía use una prueba o una prueba o siempre busque transformar / usar pruebas no paramétricas? Sé que, debido a CLT, a algún valor de la distribución muestral de la media se aproximará a la normal, pero los datos de la muestra no me dirán cuál es ese valor de ; los datos de la muestra podrían no ser normales, mientras que la media de la muestra sigue una normal / . ¿Hay casos en los que estaría transformando / utilizando una prueba no paramétrica cuando, de hecho, la distribución muestral de la media era normal / pero no podía decirlo? $t$ $z$ $n$ $n$ $t$ $t$

— Hatti
fuente

" podría ser hasta 300 para distribuciones muy sesgadas " ... en algunos casos, podría ser muchísimo más; o puede que nunca suceda Elija cualquier , y le mostraré un caso donde no es suficiente.

n

$n$

— Glen_b -Reinstala a Monica

Gracias Glen_b, así que siempre verifique que los datos de la muestra se vean normales para usar paramétricos.

— Hatti

@ Hatti no! La prueba T es válida cuando los datos parecen no normales.

— AdamO

Respuestas:

@AdamO tiene razón, simplemente siempre usa la prueba $t$ si no conoce la desviación estándar de la población a priori. No tiene que preocuparse por cuándo cambiar a la prueba $z$ , porque la distribución $t$ 'cambia' por usted. Más específicamente, el $t$ -Distribución converge a la normal, por lo que es la correcta distribución para uso en cada $N$ .

También hay una confusión aquí sobre el significado de la línea tradicional en $N=30$ . Hay dos tipos de convergencia de los que habla la gente:

El primero es que la distribución de muestreo del estadístico de prueba (es decir, $t$ ) calculada a partir de datos brutos distribuidos normalmente (dentro del grupo) converge a una distribución normal como $N\rightarrow\infty$ pesar de que la SD se estima a partir de los datos. (La distribución $t$ se encarga de esto por usted, como se indicó anteriormente).
El segundo es que la distribución muestral de la media de datos brutos no distribuidos normalmente (dentro del grupo) converge a una distribución normal (más lenta que la anterior) como $N\rightarrow\infty$ . La gente cuenta con el Teorema del límite central para encargarse de esto por ellos. Sin embargo, no hay garantía de que converja dentro de un tamaño de muestra razonable; ciertamente no hay razón para creer que $30$ (o $300$ ) es el número mágico. Dependiendo de la magnitud y la naturaleza de la no normalidad, puede llevar mucho tiempo (véase la respuesta de @ Macro aquí: Regresión cuando los residuos de OLS no están normalmente distribuidos) Si cree que sus datos brutos (dentro del grupo) no son muy normales, puede ser mejor usar un tipo diferente de prueba, como la prueba Mann-Whitney $U$ . Tenga en cuenta que con datos no normales, es probable que la prueba $U$ Mann-Whitney sea más poderosa que la prueba $t$ , y puede serlo incluso si el CLT ha comenzado. (También vale la pena señalar que la prueba de normalidad es probable que lo extravíe, vea: ¿Las pruebas de normalidad son 'esencialmente inútiles'? )

En cualquier caso, para responder sus preguntas de manera más explícita, si cree que sus datos brutos (dentro del grupo) no se distribuyen normalmente, use la prueba $U$ Mann-Whitney ; si cree que sus datos se distribuyen normalmente, pero no conoce la SD a priori, use la prueba $t$ ; y si cree que sus datos se distribuyen normalmente y conoce la SD a priori, use la prueba $z$ .

Puede ayudarlo leer la respuesta reciente de @ GregSnow aquí: Interpretación del valor p al comparar proporciones entre dos grupos pequeños en R con respecto a estos temas también.

— gung - Restablece a Monica
fuente

Gracias, esto fue realmente útil, sabía que lo estaba complicando demasiado cuando la prueba t para n más grande se acerca a lo normal. Hablando estrictamente, incluso si n fuera 1000, la prueba t debería usarse si SD no se conoce a priori.

— Hatti

De nada. Estrictamente hablando, sí , pero tenga en cuenta que será muy difícil diferenciar entre la distribución

y la distribución normal en ese punto.

t

$t$

— gung - Restablece a Monica

Sí definitivamente. Lamento haber sido tan quisquilloso, simplemente difícil tratar de pensar cómo explicarlo a otros de una manera bastante en blanco y negro. Agradezco tu ayuda gracias!

— Hatti

También tenga en cuenta que el cálculo de los resultados de la prueba t es para todos los intentos y propósitos sin un costo computacional adicional significativo en la actualidad. Ya no estamos buscando estadísticas de prueba en algunas tablas en papel que no pueden cubrir todos los casos, solo estamos preguntando a la computadora. Entonces, ¿por qué molestarse y preocuparse si quizás también podría obtener los mismos resultados con una prueba z?

— Björn

$t$

$t$ $t$ $z$

$t$ $z$

$z$ $t$

— AdamO
fuente

Utilice una prueba t siempre para una prueba no paramétrica de diferencias en medias ... quiere decir paramétrica, ¿no?

— Xavier Bourret Sicotte