Tamaño mínimo de muestra para prueba t no emparejada

16

¿Existe una "regla" para determinar el tamaño mínimo de muestra requerido para que una prueba t sea válida?

Por ejemplo, se debe realizar una comparación entre las medias de 2 poblaciones. Hay 7 puntos de datos de una población y solo 2 puntos de datos de la otra. Desafortunadamente, el experimento es muy costoso y requiere mucho tiempo, y no es factible obtener más datos.

¿Se puede usar una prueba t? ¿Por qué o por qué no? Proporcione detalles (no se conocen las variaciones y distribuciones de población). Si no se puede usar una prueba t, ¿se puede usar una prueba no paramétrica (Mann Whitney)? ¿Por qué o por qué no?

— Johnny desconcertado
fuente

2

Esta pregunta cubre material similar y será de interés para los espectadores de esta página: ¿Se requiere un tamaño de muestra mínimo para que la prueba t sea válida? .

— gung - Restablece a Monica

Vea también esta pregunta donde se analizan las pruebas con tamaños de muestra aún más pequeños.

— Glen_b -Reinstale a Mónica el

8

Recomiendo usar la prueba U no paramétrica de Mann-Whitney en lugar de una prueba t no emparejada aquí.

No hay un tamaño de muestra mínimo absoluto para la prueba t , pero a medida que los tamaños de muestra se hacen más pequeños, la prueba se vuelve más sensible a la suposición de que ambas muestras provienen de poblaciones con una distribución normal. Con muestras tan pequeñas, especialmente con una muestra de solo dos, necesitaría estar muy seguro de que las distribuciones de población eran normales, y eso debe basarse en el conocimiento externo, ya que estas muestras pequeñas brindan muy poca información en sí mismas sobre La normalidad o no de sus distribuciones. Pero usted dice que " no se conocen las variaciones y distribuciones de la población " (cursiva mía).

La prueba U de Mann-Whitney no requiere suposiciones sobre la forma paramétrica de las distribuciones, solo requiere la suposición de que las distribuciones de los dos grupos son iguales bajo la hipótesis nula.

— una parada
fuente

66

No es una buena recomendación para tamaños de muestra extremadamente pequeños. Con 7 y 2 muestras, la prueba U fallará, no importa cuán grande sea la diferencia entre la media de los grupos. Mira mi respuesta como ejemplo.

— AlefSin

2

Secundaría lo que dice @AlefSin. Si es importante para usted sacar conclusiones válidas (y no solo obtener un valor p), entonces las suposiciones más razonables que pueda mejorar. Si hay información de fondo razonable, también podría agregar más suposiciones si hiciera su análisis en un marco bayesiano.

— Rasmus Bååth

2

Un problema es que con tamaños de muestra tan pequeños, Wilcoxon-Mann-Whitney no puede alcanzar niveles de significación típicos. Con tamaños de muestra de 7 y 2, nunca obtendrá un resultado significativo al nivel del 5%, sin importar cuán evidente sea la diferencia. Considere (1.018,1.031,1.027,1.020,1.021,1.019,1.024) vs (713.2, 714.5) - ¡no significativo al nivel del 5%!

— Glen_b -Reinstalar Monica

3

n_{1} = 7

$n_1=7$

n_{2} = 2

$n_2=2$

6

(descargo de responsabilidad: no puedo escribir bien hoy: ¡mi mano derecha está fracturada!)

Contrariamente al consejo de usar una prueba no paramétrica en otras respuestas, debe considerar que para tamaños de muestra extremadamente pequeños, esos métodos no son muy útiles. Es fácil entender por qué: en estudios con un tamaño extremadamente pequeño, no se puede establecer una diferencia entre los grupos a menos que se observe un tamaño de efecto grande. Sin embargo, los métodos no paramétricos no tienen en cuenta la magnitud de la diferencia entre los grupos. Por lo tanto, incluso si la diferencia entre los dos grupos es enorme, con un tamaño de muestra pequeño, una prueba no paramétrica siempre fallará en rechazar la hipótesis nula.

Considere este ejemplo: dos grupos, distribución normal, misma varianza. Grupo 1: promedio 1.0, 7 muestras. Grupo 2: promedio 5, 2 muestras. Hay una gran diferencia entre los promedios.

wilcox.test(rnorm(7, 1), rnorm(2, 5))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556

El valor p calculado es 0.05556 que no rechaza la hipótesis nula (en 0.05). Ahora, incluso si aumenta la distancia entre las dos medias en un factor de 10, obtendrá el mismo valor p:

wilcox.test(rnorm(7, 1), rnorm(2, 50))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556

Ahora los invito a repetir la misma simulación con la prueba t y observar los valores p en el caso de diferencias grandes (promedio 5 frente a 1) y enormes (promedio 50 frente a 1).

— AlefSin
fuente

5

No hay un tamaño mínimo de muestra para una prueba t; la prueba t fue, de hecho, diseñada para muestras pequeñas. En los viejos tiempos, cuando se imprimían las tablas, se veían tablas de prueba t para muestras muy pequeñas (medidas por df).

Por supuesto, como con otras pruebas, si hay una muestra pequeña, solo un efecto bastante grande será estadísticamente significativo.

— Peter Flom - Restablece a Monica
fuente

¿Pero lo contrario también será un problema? Es decir, ¿podrían los valores atípicos que se muestrearon conducir a rechazar falsamente la hipótesis nula? ¿O la baja potencia para detectar diferencias es un problema mayor? En esta situación particular, veo una diferencia significativa entre los medios, pero no sé cuánto "confiar" en ella.

— Johnny desconcertado el

2

Con n = 2 definitivamente eres vulnerable a la influencia de los valores atípicos: valores atípicos en la población; ¿Cómo puede una muestra de 2 tener un valor atípico dentro de la muestra? :-) No probaría ninguna estadística inferencial en esta situación. Las perspectivas son malas para llegar a la "verdad", y te dejarás abierto a las críticas.

— rolando2

2

La razón por la que el intervalo de confianza será amplio es precisamente porque podría obtener un valor atípico. Pero la prueba t aún supone que las muestras provienen de una población normal.

— Peter Flom - Restablece a Monica

2

Supongo que quiere decir que tiene 7 puntos de datos de un grupo y 2 puntos de datos de un segundo grupo, los cuales son subconjuntos de poblaciones (por ejemplo, subconjunto de hombres y subconjunto de mujeres).

Las matemáticas para la prueba t se pueden obtener de esta página de Wikipedia . Asumiremos una prueba t independiente de dos muestras, con tamaños de muestra desiguales (7 frente a 2) y variaciones desiguales, por lo que aproximadamente a la mitad de esa página. Puede ver que el cálculo se basa en medias y desviaciones estándar. Con solo 7 sujetos en un grupo y 2 sujetos en otro, no puede asumir que tiene buenas estimaciones para la media o la desviación estándar. Para el grupo con 2 sujetos, la media es simplemente el valor que se encuentra exactamente en el medio de los dos puntos de datos, por lo que no está bien estimado. Para el grupo con 7 sujetos, el tamaño de la muestra afecta fuertemente las variaciones (y, por lo tanto, las desviaciones estándar, que son la raíz cuadrada de la variación) porque los valores extremos ejercen un efecto mucho más fuerte cuando se tiene una muestra más pequeña.

Por ejemplo, si mira el ejemplo básico en la página de Wikipedia para la desviación estándar , verá que la desviación estándar es 2, y la varianza (al cuadrado de la desviación estándar) es por lo tanto 4. Pero si solo tuviéramos los dos primeros puntos de datos (el 9 y el 1), la varianza sería 10/2 = 5 y la desviación estándar sería 2.2 y si solo tuviéramos los dos últimos valores (el 4 y el 16), la varianza sería 20/2 = 10 y la desviación estándar sería 3.2. Todavía estamos usando los mismos valores, solo que menos, y podemos ver el efecto en nuestras estimaciones.

Ese es el problema con el uso de estadísticas inferenciales con tamaños de muestra pequeños, sus resultados se verán particularmente afectados por el muestreo.

Actualización: ¿hay alguna razón por la que no pueda simplemente informar los resultados por tema e indicar que se trata de un trabajo exploratorio? Con solo dos casos, los datos son muy similares a un estudio de caso, y estos son (1) importantes para escribir y (2) prácticas aceptadas.

— Michelle
fuente

Gracias michelle Esto es interesante y útil de saber. Sin embargo, ¿qué recomendarías desde un punto de vista práctico? Ante esta situación, ¿cuál es la mejor manera de proceder? ¡Gracias!

— Johnny desconcertado

Hola Johnny desconcertado. Sin más información sobre su situación exacta, me siento incapaz de darle más orientación.

— Michelle

¿Qué tipo de información se necesita?

— Johnny desconcertado el

1

Hola nuevamente, más información sobre el diseño de su estudio, como cuáles son sus datos, cómo los recopiló, cuáles son sus grupos, cómo se seleccionaron las observaciones. Todo lo que sé es que hiciste un experimento con 9 observaciones (personas, ratas, neuronas, bloques de queso, frecuencias de radiación) que son de dos grupos.

— Michelle

Digamos que el flujo sanguíneo promedio a la materia blanca en el cerebro se midió en humanos mediante resonancia magnética. Los grupos son controles (7 personas) y pacientes emparejados por edad / sexo con un trastorno particular (2 personas).

— Johnny desconcertado el

1

Interesante artículo relacionado: 'Uso de la prueba t de Student con tamaños de muestra extremadamente bajos' JCF de Winter (en Evaluación práctica, investigación y evaluación) http://goo.gl/ZAUmGW

— Epifunky
fuente

0

Recomendaría comparar las conclusiones que se obtienen tanto con la prueba t como con la prueba de Mann-Whitney, y también echar un vistazo a los diagramas de caja y la probabilidad de perfil de la media de cada población.

— Demian
fuente

Hola @Demian, no estoy seguro de que incluso un diagrama de caja sea útil cuando un grupo tiene un tamaño de muestra de 2. De lo contrario, sí, creo que los cuadros de caja en particular son muy útiles para visualizar datos continuos entre grupos.

— Michelle

0

Código Stata 13 / SE para una prueba de arranque Como una prueba t realizada en muestras pequeñas probablemente no cumple con los requisitos de prueba (principalmente, la normalidad de las poblaciones de las cuales se extrajeron las dos muestras), recomendaría realizar una prueba t de arranque (con variaciones desiguales), siguiendo a Efron B, Tibshirani Rj. Una intrusión a Bootstrap. Boca Raton, FL: Chapman & Hall / CRC, 1993: 220-224. El código para una prueba de arranque sobre los datos proporcionados por Johnny Puzzled en Stata 13 / SE se informa en la imagen de arriba.

— Carlo Lazzaro
fuente

Su respuesta tiene serios problemas de formato, ¿le importaría editarla?

— ameba dice Reinstate Monica

He intentado resolver problemas de formato en la versión revisada de la respuesta. Gracias a ameba por señalar esto.

— Carlo Lazzaro

0

Con un tamaño de muestra de 2, lo mejor que puede hacer es mirar los números individuales en sí mismos y ni siquiera molestarse con el análisis estadístico.

— Kevin
fuente

1

En la actualidad, esto se lee más como un comentario. Si bien este es un buen punto, para una respuesta razonable al problema original, podría esperarse una discusión sobre el tema en sí, incluso si finalmente se concluye que tiene más sentido hacer otra cosa.

— Glen_b -Reinstale a Mónica el