Antecedentes: estoy dando una presentación a mis colegas en el trabajo sobre la prueba de hipótesis, y entiendo bien la mayoría de ellos, pero hay un aspecto que me estoy haciendo un nudo tratando de entender y explicar a los demás.
Esto es lo que creo que sé (¡corríjalo si está equivocado!)
- Estadísticas que serían normales si se conociera la varianza, siga una distribución si la varianza es desconocida
- CLT (Teorema del límite central): la distribución muestral de la media muestral es aproximadamente normal para suficientemente grande (podría ser , podría ser hasta para distribuciones muy sesgadas)
- La distribución puede considerarse Normal para grados de libertad
Utiliza la prueba si:
- Población normal y varianza conocida (para cualquier tamaño de muestra)
- Población normal, varianza desconocida (debido a CLT)
- poblacional, ,
Utiliza la prueba si:
- Población normal, varianza desconocida
- No se conoce la población o la varianza , pero los datos de la muestra parecen normales / pasan las pruebas, etc., por lo que se puede suponer que la población es normal
Entonces me queda con:
- Para muestras y (?), No se conoce / desconoce la población y la varianza.
Entonces mis preguntas son:
¿A qué tamaño de muestra puede suponer (donde no hay conocimiento sobre la distribución o la varianza de la población) que la distribución muestral de la media es normal (es decir, CLT ha comenzado) cuando la distribución muestral parece no normal? Sé que algunas distribuciones necesitan , pero algunos recursos parecen decir que use la prueba siempre que ...
Para los casos de los que no estoy seguro, supongo que miro los datos para ver si hay normalidad. Ahora, si los datos de la muestra parecen normales, ¿uso la prueba (ya que supongo que la población es normal y desde )?
¿Qué pasa con los datos de muestra para casos de los que no estoy seguro? ¿Hay alguna circunstancia en la que todavía use una prueba o una prueba o siempre busque transformar / usar pruebas no paramétricas? Sé que, debido a CLT, a algún valor de la distribución muestral de la media se aproximará a la normal, pero los datos de la muestra no me dirán cuál es ese valor de ; los datos de la muestra podrían no ser normales, mientras que la media de la muestra sigue una normal / . ¿Hay casos en los que estaría transformando / utilizando una prueba no paramétrica cuando, de hecho, la distribución muestral de la media era normal / pero no podía decirlo?