¿Puede un tamaño de muestra pequeño causar un error tipo 1?

Aprendí que un tamaño de muestra pequeño puede conducir a una potencia insuficiente y un error tipo 2. Sin embargo, tengo la sensación de que las muestras pequeñas pueden ser poco fiables y dar lugar a cualquier tipo de resultado por casualidad. ¿Es eso cierto?

hypothesis-testing small-sample

— incluso
fuente

Tengo una aversión a la notación matemática innecesaria, así que he editado el título, ¿podría verificar que no haya cambiado el significado al cambiarlo?

— mpiktas

Asegúrese también de hablar sobre las pruebas de hipótesis (pruebas de Neyman-Pearson) y no sobre las pruebas de significación (pruebas de Fisher). Estos enfoques se mezclan comúnmente incluso si no hay una noción de error en el segundo, y los usos adecuados deberían ser diferentes porque conducen a diferentes tipos de conclusión.

— Seb

Si está utilizando una prueba asintótica, sí, es posible. De lo contrario, no, la prueba se define para controlar la tasa de error de tipo 1 (es decir,

α

$\alpha$

— Macro

Pero no es cierto, si está volteando monedas dos veces, es más probable que obtenga un resultado sesgado (2 mismos lados (100%)), que cuando está volteando 100 veces, lo que probablemente resulte en aproximadamente 1 / 2, 1/2. ¿No indica esto que cuanto más pequeño sea el tamaño, más probabilidades hay de que se produzca un error tipo I?

Respuestas:

Como principio general, un tamaño de muestra pequeño no aumentará la tasa de error Tipo I por la simple razón de que la prueba está organizada para controlar la tasa Tipo I. (Existen pequeñas excepciones técnicas asociadas con resultados discretos, que pueden causar que la tasa nominal de Tipo I no se logre exactamente, especialmente con tamaños de muestra pequeños).

Aquí hay un principio importante : si su prueba tiene un tamaño aceptable (= tasa nominal de Tipo I) y una potencia aceptable para el efecto que está buscando, incluso si el tamaño de la muestra es pequeño, está bien.

El peligro es que si de lo contrario sabemos poco sobre la situación, tal vez estos son todos los datos que tenemos, entonces podríamos estar preocupados por los errores de "Tipo III": es decir, la especificación errónea del modelo. Pueden ser difíciles de verificar con pequeños conjuntos de muestras.

Como ejemplo práctico de la interacción de ideas, compartiré una historia. Hace mucho tiempo me pidieron que recomendara un tamaño de muestra para confirmar una limpieza ambiental. Esto fue durante la fase previa a la limpieza antes de que tuviéramos datos. Mi plan requería analizar las aproximadamente 1000 muestras que se obtendrían durante la limpieza (para establecer que se había eliminado suficiente tierra en cada ubicación) para evaluar la media y la variación de la concentración de contaminantes después de la limpieza. Luego (para simplificar enormemente), dije que usaríamos una fórmula de libro de texto, basada en la potencia especificada y el tamaño de la prueba, para determinar la cantidad de muestras de confirmación independientes que se usarían para demostrar que la limpieza fue exitosa.

Lo que hizo que esto fuera memorable fue que después de que se realizó la limpieza, se decía que la fórmula usaba solo 3 muestras. ¡De repente mi recomendación no parecía muy creíble!

La razón para necesitar solo 3 muestras es que la limpieza fue agresiva y funcionó bien. Redujo las concentraciones promedio de contaminantes a aproximadamente 100 más o menos 100 ppm, consistentemente por debajo del objetivo de 500 ppm.

Al final, este enfoque funcionó porque habíamos obtenido las 1000 muestras anteriores (aunque de menor calidad analítica: tenían un mayor error de medición) para establecer que los supuestos estadísticos que se estaban haciendo eran realmente buenos para este sitio. Así es como se manejó el potencial de error de Tipo III.

Un giro más para su consideración: sabiendo que la agencia reguladora nunca aprobaría usar solo 3 muestras, recomendé obtener 5 mediciones. Estaban compuestos de 25 muestras aleatorias de todo el sitio, compuestas en grupos de 5. Estadísticamente, solo habría 5 números en la prueba de hipótesis final, pero logramos un mayor poder para detectar un "punto caliente" aislado al tomar 25 exámenes físicos. muestras Esto resalta la importante relación entre cuántos números se usan en la prueba y cómo se obtuvieron. ¡Hay más en la toma de decisiones estadísticas que solo algoritmos con números!

Para mi alivio eterno, los cinco valores compuestos confirmaron que se cumplió el objetivo de limpieza.

— whuber
fuente

(+1) gran historia sobre limpieza agresiva y error tipo III , sería bueno si esto también fuera relevante para series de tiempo económicas. Para modelos deterministas o modelos con baja relación de ruido, el tamaño de muestra pequeño en mi humilde opinión no será el mayor problema (en comparación con un gran conjunto de datos de muestra grandes independientes muy ruidosos y probablemente independientes, incluso los componentes principales son difíciles con estos).

— Dmitrij Celov

1, para los que están interesados en una mayor comprensión de las "excepciones técnicos asociados con resultados discretos" mencionados en el primer párrafo, se discuten los que están aquí: Comparar y contrastar los valores de p, niveles de significación, y el error tipo I .

— gung - Restablece a Monica

+1, un gran ejemplo de por qué no puede realizar una puñalada salvaje en un tamaño de muestra útil sin información clave.

— Freya Harrison

Otra consecuencia de una muestra pequeña es el aumento del error tipo 2.

Nunnally demostró en el artículo "El lugar de la estadística en psicología", 1960, que las muestras pequeñas generalmente no pueden rechazar una hipótesis de punto nulo. Estas hipótesis son hipótesis que tienen algunos parámetros iguales a cero, y se sabe que son falsas en la experiencia considerada.

Por el contrario, las muestras demasiado grandes aumentan el error tipo 1 porque el valor p depende del tamaño de la muestra, pero el nivel de significancia alfa es fijo. Una prueba en una muestra de este tipo siempre rechazará la hipótesis nula. Lea "La insignificancia de las pruebas de significación estadística" de Johnson y Douglas (1999) para tener una visión general del problema.

Esta no es una respuesta directa a la pregunta, pero estas consideraciones son complementarias.

— Seb
fuente

+1 por llamar al problema de las muestras grandes y el error de Tipo I

— Josh Hemann

-1, el comentario de que "muestras demasiado grandes aumentan el error tipo 1" es incorrecto. Puede confundir la significación estadística y la significación práctica , ya que puede existir una situación en la que el verdadero efecto no sea exactamente 0, pero tan pequeño que no tenga consecuencias, y consideraríamos el nulo 'verdadero' para fines prácticos . En este caso, el valor nulo sería rechazado más de (p. Ej.) El 5% del tiempo, y con mayor frecuencia con el aumento de N. Sin embargo, estrictamente hablando, la hipótesis nula de que el efecto verdadero es exactamente 0 es, por estipulación, falso. Por lo tanto, estos rechazos no son realmente errores de tipo I.

— gung - Restablece a Monica