Como principio general, un tamaño de muestra pequeño no aumentará la tasa de error Tipo I por la simple razón de que la prueba está organizada para controlar la tasa Tipo I. (Existen pequeñas excepciones técnicas asociadas con resultados discretos, que pueden causar que la tasa nominal de Tipo I no se logre exactamente, especialmente con tamaños de muestra pequeños).
Aquí hay un principio importante : si su prueba tiene un tamaño aceptable (= tasa nominal de Tipo I) y una potencia aceptable para el efecto que está buscando, incluso si el tamaño de la muestra es pequeño, está bien.
El peligro es que si de lo contrario sabemos poco sobre la situación, tal vez estos son todos los datos que tenemos, entonces podríamos estar preocupados por los errores de "Tipo III": es decir, la especificación errónea del modelo. Pueden ser difíciles de verificar con pequeños conjuntos de muestras.
Como ejemplo práctico de la interacción de ideas, compartiré una historia. Hace mucho tiempo me pidieron que recomendara un tamaño de muestra para confirmar una limpieza ambiental. Esto fue durante la fase previa a la limpieza antes de que tuviéramos datos. Mi plan requería analizar las aproximadamente 1000 muestras que se obtendrían durante la limpieza (para establecer que se había eliminado suficiente tierra en cada ubicación) para evaluar la media y la variación de la concentración de contaminantes después de la limpieza. Luego (para simplificar enormemente), dije que usaríamos una fórmula de libro de texto, basada en la potencia especificada y el tamaño de la prueba, para determinar la cantidad de muestras de confirmación independientes que se usarían para demostrar que la limpieza fue exitosa.
Lo que hizo que esto fuera memorable fue que después de que se realizó la limpieza, se decía que la fórmula usaba solo 3 muestras. ¡De repente mi recomendación no parecía muy creíble!
La razón para necesitar solo 3 muestras es que la limpieza fue agresiva y funcionó bien. Redujo las concentraciones promedio de contaminantes a aproximadamente 100 más o menos 100 ppm, consistentemente por debajo del objetivo de 500 ppm.
Al final, este enfoque funcionó porque habíamos obtenido las 1000 muestras anteriores (aunque de menor calidad analítica: tenían un mayor error de medición) para establecer que los supuestos estadísticos que se estaban haciendo eran realmente buenos para este sitio. Así es como se manejó el potencial de error de Tipo III.
Un giro más para su consideración: sabiendo que la agencia reguladora nunca aprobaría usar solo 3 muestras, recomendé obtener 5 mediciones. Estaban compuestos de 25 muestras aleatorias de todo el sitio, compuestas en grupos de 5. Estadísticamente, solo habría 5 números en la prueba de hipótesis final, pero logramos un mayor poder para detectar un "punto caliente" aislado al tomar 25 exámenes físicos. muestras Esto resalta la importante relación entre cuántos números se usan en la prueba y cómo se obtuvieron. ¡Hay más en la toma de decisiones estadísticas que solo algoritmos con números!
Para mi alivio eterno, los cinco valores compuestos confirmaron que se cumplió el objetivo de limpieza.