¿Se requiere un tamaño de muestra mínimo para que la prueba t sea válida?


71

Actualmente estoy trabajando en un trabajo de investigación cuasi-experimental. Solo tengo un tamaño de muestra de 15 debido a la baja población dentro del área elegida y que solo 15 se ajustan a mis criterios. ¿Es 15 el tamaño mínimo de muestra para calcular la prueba t y la prueba F? Si es así, ¿dónde puedo obtener un artículo o libro para respaldar este pequeño tamaño de muestra?

Este documento ya fue defendido el lunes pasado y uno de los panelistas solicitó una referencia de apoyo porque el tamaño de mi muestra es demasiado bajo. Dijo que debería haber sido al menos 40 encuestados.


44
Un tamaño de muestra puede ser sustancialmente menor que 15 si se cumplen los supuestos. ¿Fue la validez de la distribución t la única razón por la que sugirió una muestra más grande?
Glen_b

Solo para aclarar, qué tipo de prueba t está realizando: una muestra, muestra pareada o dos muestras.
Jeromy Anglim

26
Históricamente, la primera demostración de la prueba t (en el documento de 1908 de "Student") fue en una aplicación a tamaños de muestra de tamaño cuatro . De hecho, la obtención de resultados mejorados para muestras pequeñas es el reclamo de fama de la prueba: una vez que el tamaño de la muestra alcanza aproximadamente 40, la prueba t no es sustancialmente diferente de las pruebas z que los investigadores habían estado aplicando durante todo el siglo XIX. Puede compartir una versión moderna de este documento con el miembro del panel: york.ac.uk/depts/maths/histstat/student.pdf . Señale la investigación en la Sección VI, págs. 14-18.
whuber

10
Pero debe reflexionar sobre el hecho de que los tamaños de muestra pequeños, como 4, funcionan porque el Estudiante tenía datos de alta calidad: datos de laboratorio químico, experimentos, no cuasi-experimentos. Su principal problema no es con el tamaño de la muestra sino con la representatividad: ¿cómo sabe que sus datos son representativos de algo?
kjetil b halvorsen

10
@CzarinaFrancoise ¿Por qué nos limitaríamos a la ciencia <10 años?
RioRaider

Respuestas:


56

No hay un tamaño mínimo de muestra para que la prueba t sea válida. La validez requiere que los supuestos para la estadística de prueba se mantengan aproximadamente. Esos supuestos son, en el caso de una muestra, que los datos son normales (o aproximadamente normales) con una media 0 bajo la hipótesis nula y una varianza desconocida pero estimada a partir de la muestra. En el caso de dos muestras, es que ambas muestras son independientes entre sí y cada muestra consta de variables normales y las dos muestras tienen la misma media y una varianza desconocida común bajo la hipótesis nula. Se utiliza una estimación agrupada de la varianza para la estadística.

En el caso de una muestra, la distribución bajo la hipótesis nula es una t central con n-1 grados de libertad. En los dos casos de muestra con tamaños de muestra n y m no necesariamente iguales, la distribución nula de las estadísticas de prueba es t con n + m-2 grados de libertad. La mayor variabilidad debida al tamaño de muestra bajo se explica en la distribución que tiene colas más pesadas cuando los grados de libertad son bajos, lo que corresponde a un tamaño de muestra bajo. Por lo tanto, se pueden encontrar valores críticos para que el estadístico de prueba tenga un nivel de significancia dado para cualquier tamaño de muestra (bueno, al menos de tamaño 2 o mayor).

El problema con el tamaño de muestra bajo es con respecto al poder de la prueba. El revisor puede haber sentido que 15 por grupo no era un tamaño de muestra lo suficientemente grande como para tener un alto poder de detectar una diferencia significativa, digamos delta entre las dos medias o una media mayor que delta en valor absoluto para un problema de una muestra. Necesitar 40 requeriría una especificación de una determinada potencia en un delta particular que se lograría con n igual a 40 pero no inferior a 40.

Debo agregar que para que se realice la prueba t, la muestra debe ser lo suficientemente grande como para estimar la varianza o varianzas.


2
Pero una nota importante es que la prueba es válida, incluso si los datos no son aproximadamente normales, si el tamaño de la muestra es lo suficientemente grande. La justificación es un poco redonda (el teorema de Slutsky + distribución t se aproxima a lo normal) y la justificación para su uso en una prueba z simplemente es que es más conservadora en muestras más pequeñas. Pero es una nota importante que si sospechamos que no es normal, ¡las muestras grandes pueden salvarnos!
Cliff AB

1
@CliffAB Por "válido" supongo que quiere decir "tiene aproximadamente el nivel de significancia correcto, en el límite como n \ to \ infty". Pero, en general, a las personas les importa más que la tasa de error de tipo I (especialmente cuando solo puede estar razonablemente cerca de las muestras que pueden ser mayores que cualquier tamaño de muestra disponible). La eficiencia relativa asintótica puede ser muy pobre, por lo que el poder contra los efectos pequeños en muestras grandes puede ser muy malo en comparación con las opciones alternativas, incluso cuando la tasa de error tipo I se convierte en lo que debería ser ...
Glen_b

33

Con toda deferencia hacia él, no sabe de qué está hablando. La prueba t fue diseñada para trabajar con muestras pequeñas. Realmente no hay un mínimo (tal vez podría decir un mínimo de 3 para una prueba t de una muestra, IDK), pero le preocupa la potencia adecuada con muestras pequeñas. Puede interesarle leer sobre las ideas detrás del análisis de compromiso de poder cuando el posible tamaño de la muestra está altamente restringido, como en su caso.

En cuanto a una referencia que demuestra que puede usar la prueba t con muestras pequeñas, no sé cuál, y dudo que exista. ¿Por qué alguien trataría de probar eso? La idea es simplemente tonta.


66
+1 (para ti y Michael). De interés, ¡ni siquiera necesita dos observaciones para hacer inferencias si está dispuesto a hacer una serie de suposiciones!
Andy W

44
La razón para la prueba t en una muestra pequeña es que incluso cuando las muestras son normales si se desconoce la desviación estándar, lo más común es normalizar dividiendo por una estimación de la muestra de la desviación estándar. En muestras grandes, esa estimación estará lo suficientemente cerca de la desviación estándar de la población como para que el estadístico de prueba sea aproximadamente normal normal, pero en una muestra pequeña tendrá colas más pesadas que la normal.
Michael Chernick

55
La distribución t con n-1 grados de libertad es la distribución exacta para cualquier tamaño de muestra n bajo la hipótesis nula y en muestras pequeñas debe usarse en lugar de lo normal, lo que no se aproxima bien. El verdadero problema con el tamaño de la muestra, como afirmaron Gung y yo, es el poder. Si desea discutir con el árbitro que 15 es suficiente, debe identificar qué tan grande se necesita una diferencia para ser considerada significativa (el delta que mencioné) y luego, para ese delta, debe demostrar que la potencia es adecuada, digamos 0.80 o más .
Michael Chernick

2
@CzarinaFrancoise Acerca de n> = 30, ver stats.stackexchange.com/questions/2541/…
Stéphane Laurent

2
El documento original de @gung Student (¡1908!) demuestra que puede usar la prueba t con muestras pequeñas. (Para obtener más información al respecto, consulte mi comentario extendido a la pregunta original.)
whuber

30

Como se menciona en las respuestas existentes, el problema principal con un tamaño de muestra pequeño es el bajo poder estadístico. Existen varias reglas generales con respecto a lo que es un poder estadístico aceptable. Algunas personas dicen que un poder estadístico del 80% es razonable, pero en última instancia, más es mejor. En general, también existe una compensación entre el costo de obtener más participantes y el beneficio de obtener más poder estadístico.

Se puede evaluar la potencia estadística de al prueba usando una simple función en R, power.t.test.

α=.05

p.2 <-power.t.test(n=15, delta=.2, sd=1, sig.level=.05, type='one.sample')
p.5 <- power.t.test(n=15, delta=.5, sd=1, sig.level=.05, type='one.sample')
p.8 <-power.t.test(n=15, delta=.8, sd=1, sig.level=.05, type='one.sample')

round(rbind(p.2=p.2$power, p.5=p.5$power, p.8=p.8$power), 2)  

    [,1]
p.2 0.11
p.5 0.44
p.8 0.82

Por lo tanto, podemos ver que si el tamaño del efecto de la población fuera "pequeño" o "mediano", tendría un poder estadístico bajo (es decir, 11% y 44% respectivamente). Sin embargo, si el tamaño del efecto es grande en la población, tendría lo que algunos describirían como poder "razonable" (es decir, 82%).

El sitio Quick-r proporciona más información sobre el análisis de potencia usando R .


¡Buena respuesta! También hay un buen software para calcular el poder estadístico llamado G * Power .
Enrique

7

La prueba t de dos muestras es válida si las dos muestras son muestras aleatorias simples independientes de distribuciones normales con la misma varianza y cada uno de los tamaños de muestra es al menos dos (para poder estimar la varianza de la población). irrelevante para la cuestión de la validez de la prueba. Dependiendo del tamaño del efecto que se desee detectar, un tamaño de muestra pequeño puede ser imprudente, pero un tamaño de muestra pequeño no invalida la prueba. Tenga en cuenta también que para cualquier tamaño de muestra, la distribución muestral de la media es Normal si la distribución principal es Normal. Por supuesto, los tamaños de muestra más grandes siempre son mejores porque proporcionan estimaciones más precisas de los parámetros. El teorema del límite central nos dice que las medias muestrales se distribuyen más normalmente que los valores individuales, pero como lo señalan Casella y Berger, es de utilidad limitada ya que la tasa de aproximación a la Normalidad debe verificarse para cualquier caso particular. Confiar en las reglas generales es imprudente. Ver los resultados informaron los libros de Rand Wilcox.


5

Si bien es cierto que la distribución t tiene en cuenta el pequeño tamaño de la muestra, supongo que su árbitro estaba pensando en la dificultad de establecer que la población se distribuye normalmente, cuando la única información que tiene es una muestra relativamente pequeña. Esto puede no ser un gran problema con una muestra de tamaño 15, ya que es de esperar que la muestra sea lo suficientemente grande como para mostrar algunos signos de distribución vagamente normal. Si esto es cierto, es de esperar que la población también esté en algún lugar cerca de lo normal y, combinado con el Teorema del límite central, eso debería proporcionarle una muestra de medios que se comporten lo suficientemente bien.

Pero tengo dudas acerca de las recomendaciones para usar pruebas t para muestras pequeñas (como el tamaño cuatro) a menos que la normalidad de la población pueda establecerse mediante alguna información externa o comprensión mecánica. Seguramente no puede haber información lo suficientemente cerca en una muestra de tamaño cuatro para tener alguna pista sobre la forma de la distribución de la población.


5

Considere lo siguiente de las páginas 254-256 de Sauro, J. y Lewis, JR (2016). Cuantificación de la experiencia del usuario: estadísticas prácticas para la investigación del usuario, 2ª ed. Cambridge, MA: Morgan-Kaufmann (puede consultar el interior en https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).


¿DEBE PROBAR AL MENOS 30 USUARIOS?

POR UN LADO

Probablemente la mayoría de nosotros que hemos tomado una clase introductoria de estadística (o conocemos a alguien que tomó esa clase) hemos escuchado la regla general de que para estimar o comparar medias, el tamaño de su muestra debe ser al menos 30. De acuerdo con el teorema del límite central, A medida que aumenta el tamaño de la muestra, la distribución de la media se vuelve más y más normal, independientemente de la normalidad de la distribución subyacente. Algunos estudios de simulación han demostrado que para una amplia variedad de distribuciones (pero no todas, ver Bradley, 1978), la distribución de la media se vuelve casi normal cuando n = 30.

Otra consideración es que es un poco más simple usar puntajes z en lugar de puntajes t porque los puntajes z no requieren el uso de grados de libertad. Como se muestra en la Tabla 9.1 y la Fig. 9.2, para cuando tenga aproximadamente 30 grados de libertad, el valor de t se acerca bastante al valor de z. En consecuencia, puede haber la sensación de que no tiene que lidiar con muestras pequeñas que requieren estadísticas de muestras pequeñas (Cohen, 1990). ...

POR OTRA PARTE

Cuando el costo de una muestra es costoso, como suele ser en muchos tipos de investigación de usuarios (por ejemplo, pruebas de usabilidad moderadas), es importante estimar el tamaño de muestra necesario con la mayor precisión posible, con el entendimiento de que es una estimación. La probabilidad de que 30 sea exactamente la muestra correcta para un conjunto dado de circunstancias es muy baja. Como se muestra en nuestros capítulos sobre la estimación del tamaño de la muestra, un enfoque más apropiado es tomar las fórmulas para calcular los niveles de significancia de una prueba estadística y, usando álgebra para resolver n, convertirlas en fórmulas de estimación del tamaño de la muestra. Esas fórmulas luego brindan orientación específica sobre lo que debe saber o estimar para una situación dada para estimar el tamaño de muestra requerido.

La idea de que incluso con la distribución t (a diferencia de la distribución z) necesita tener un tamaño de muestra de al menos 30 es inconsistente con la historia del desarrollo de la distribución. En 1899, William S. Gossett, un recién graduado de New College en Oxford con títulos en química y matemáticas, se convirtió en uno de los primeros científicos en unirse a la cervecería Guinness. “Comparado con los gigantes de su época, publicó muy poco, pero su contribución es de importancia crítica. ... La naturaleza del proceso de elaboración de la cerveza, con su variabilidad en temperatura e ingredientes, significa que no es posible tomar muestras grandes a largo plazo ”(Cowles, 1989, p. 108-109).

Esto significaba que Gossett no podía usar puntajes z en su trabajo, simplemente no funcionan bien con muestras pequeñas. Después de analizar las deficiencias de la distribución z para las pruebas estadísticas con muestras pequeñas, resolvió los ajustes necesarios en función de los grados de libertad para producir sus tablas t, publicadas bajo el seudónimo "Estudiante" debido a las políticas de Guinness que prohíben la publicación. por empleados (Salsburg, 2001). En el trabajo que condujo a la publicación de las tablas, Gossett realizó una primera versión de las simulaciones de Monte Carlo (Stigler, 1999). Preparó 3000 tarjetas etiquetadas con medidas físicas tomadas en criminales, las barajó, luego las repartió en 750 grupos de tamaño 4, un tamaño de muestra mucho más pequeño que 30.

NUESTRA RECOMENDACIÓN

Esta controversia es similar al argumento “cinco es suficiente” versus “ocho no es suficiente” cubierto en el Capítulo 6, pero aplicado a la investigación sumativa más que formativa. Para cualquier investigación, el número de usuarios a evaluar depende del propósito de la prueba y del tipo de datos que planea recopilar. El "número mágico" 30 tiene una lógica empírica, pero en nuestra opinión, es muy débil. Como puede ver en los numerosos ejemplos en este libro que tienen tamaños de muestra que no son iguales a 30 (a veces menos, a veces más), no tenemos en cuenta esta regla general. Como se describe en nuestro capítulo de tamaño de muestra para investigación sumativa, el tamaño de muestra apropiado para un estudio depende del tipo de distribución, la variabilidad esperada de los datos, los niveles deseados de confianza y poder,

Como se ilustra en la figura 9.2, cuando se usa la distribución t con muestras muy pequeñas (p. Ej., Con grados de libertad inferiores a 5), ​​los valores muy grandes de t compensan los tamaños de muestra pequeños con respecto al control de los errores de Tipo I ( reclamar una diferencia es importante cuando realmente no lo es). Con tamaños de muestra tan pequeños, sus intervalos de confianza serán mucho más amplios de lo que obtendría con muestras más grandes. Pero una vez que se trata de más de 5 grados de libertad, hay muy poca diferencia absoluta entre el valor de z y el valor de t. Desde la perspectiva del enfoque de t a z, hay muy poca ganancia después de los 10 grados de libertad.

No es mucho más complicado usar la distribución t que la distribución z (solo debe asegurarse de usar el valor correcto para los grados de libertad), y la razón para el desarrollo de la distribución t fue Permitir el análisis de pequeñas muestras. Esta es solo una de las formas menos obvias en que los profesionales de la usabilidad se benefician de la ciencia y la práctica de la elaboración de cerveza. Los historiadores de las estadísticas consideran ampliamente la publicación de Gossett de la prueba t de Student como un evento histórico (Box, 1984; Cowles, 1989; Stigler, 1999). En una carta a Ronald A. Fisher (uno de los padres de las estadísticas modernas) que contiene una copia temprana de las tablas t, Gossett escribió: "Usted es probablemente el único hombre que las usará" (Box, 1978). Gossett hizo muchas cosas bien, pero ciertamente se equivocó.

Referencias

Box, GEP (1984). La importancia de la práctica en el desarrollo de estadísticas. Technometrics, 26 (1), 1-8.

Box, JF (1978). Fisher, la vida de un científico. Nueva York, NY: John Wiley.

Bradley, JV (1978). Robustez? Revista británica de psicología matemática y estadística, 31, 144-152.

Cohen, J. (1990). Cosas que he aprendido (hasta ahora). Psicólogo estadounidense, 45 (12), 1304-1312.

Cowles, M. (1989). Estadística en psicología: una perspectiva histórica. Hillsdale, Nueva Jersey: Lawrence Erlbaum.

Salsburg, D. (2001). La dama degustando té: cómo las estadísticas revolucionaron la ciencia en el siglo XX. Nueva York, NY: WH Freeman.

Stigler, SM (1999). Estadísticas sobre la mesa: La historia de los conceptos y métodos estadísticos. Cambridge, MA: Harvard University Press.


3

Czarina puede encontrar interesante comparar los resultados de su prueba t paramétrica con los resultados obtenidos por una prueba t de arranque. El siguiente código para Stata 13/1 imita un ejemplo ficticio sobre una prueba t de dos muestras con variaciones desiguales (prueba t paramétrica: valor p = 0.1493; prueba t de arranque: valor p = 0.1543).

set obs 15
g A=2*runiform()
g B=2.5*runiform()
ttest A == B, unpaired unequal
scalar t =r(t)
sum A, meanonly
replace A=A-r(mean) + 1.110498 ///1.110498=combined mean of A and B
sum B, meanonly
replace B=B-r(mean) + 1.110498
bootstrap r(t), reps(10000) nodots///
saving(C:\Users\user\Desktop\Czarina.dta, every(1) double replace) : ///
ttest A == B, unpairedunequal
use "C:\Users\user\Desktop\Czarina.dta", clear
count if _bs_1<=-1.4857///-1.4857=t-value from parametric ttest
count if _bs_1>=1.4857
display (811+732)/10000///this chunk of code calculates a bootstrap p-value///
to be compared with the parametric ttest p-value

3

Hay dos formas diferentes de justificar el uso de la prueba t.

  • Sus datos se distribuyen normalmente y tiene al menos dos muestras por grupo
  • Tiene grandes tamaños de muestra en cada grupo.

Si cualquiera de estos casos se cumple, entonces la prueba t se considera una prueba válida. Entonces, si está dispuesto a asumir que sus datos se distribuyen normalmente (de lo que están haciendo muchos investigadores que recolectan pequeñas muestras), entonces no tiene nada de qué preocuparse.

Sin embargo, alguien podría objetar razonablemente que usted está confiando en esta suposición para obtener sus resultados, especialmente si se sabe que sus datos están sesgados. Entonces la cuestión del tamaño de la muestra requerida para una inferencia válida es muy razonable.

En cuanto a qué tan grande se requiere un tamaño de muestra, desafortunadamente no hay una respuesta realmente sólida para eso; cuanto más sesgados sean sus datos, mayor será el tamaño de muestra requerido para que la aproximación sea razonable. 15-20 por grupo generalmente se considera razonablemente grande, pero como con la mayoría de las reglas generales, existen ejemplos contrarios: por ejemplo, en devoluciones de boletos de lotería (donde 1 en, digamos, 10,000,000 observaciones es un valor EXTREMO), literalmente necesitaría en algún lugar alrededor de 100,000,000 de observaciones antes de estas pruebas serían apropiadas.


1

Estoy de acuerdo con respecto a la utilidad de una prueba t boostrapped. También recomendaría, en comparación, un vistazo al método bayesiano ofrecido por Kruschke en http://www.indiana.edu/~kruschke/BEST/BEST.pdf . En general, preguntas de "¿Cuántas materias?" no se puede responder a menos que tenga una idea de lo que sería un tamaño de efecto significativo en términos del problema que se está resolviendo. Es decir, y por ejemplo, si la prueba fuera un estudio hipotético sobre la eficacia de un nuevo medicamento, el tamaño del efecto podría ser el tamaño mínimo necesario para justificar el nuevo medicamento en comparación con el anterior para la Administración de Alimentos y Medicamentos de EE. UU.

Lo que es extraño en esta y en muchas otras discusiones es la buena voluntad de postular que algunos datos solo tienen una distribución teórica, como ser gaussiano. Primero, no necesitamos plantear, podemos verificar, incluso con muestras pequeñas. Segundo, ¿por qué plantear alguna distribución teórica específica? ¿Por qué no simplemente tomar los datos como una distribución empírica en sí mismos?

Claro, en el caso de tamaños de muestra pequeños, postular que los datos provienen de alguna distribución es muy útil para el análisis. Pero, parafraseando a Bradley Efron, al hacerlo, acabas de inventar una cantidad infinita de datos. A veces eso puede estar bien si su problema es apropiado. Algunas veces no lo es.


1

En cuanto a los supuestos para los dos casos de muestra; es que ambas muestras son independientes entre sí y cada muestra consta de variables normales y las dos muestras tienen la misma media y una varianza desconocida común bajo la hipótesis nula.

También existe la prueba t de Welch que utiliza la aproximación Satterwaite para el error estándar. Esta es una prueba t de 2 muestras asumiendo variaciones desiguales.

Prueba t de Welch

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.