Si el resultado de mi prueba t unilateral es significativo pero el tamaño de la muestra es pequeño (por ejemplo, inferior a 20 o menos), ¿puedo confiar en este resultado? Si no es así, ¿cómo debo tratar y / o interpretar este resultado?
Si el resultado de mi prueba t unilateral es significativo pero el tamaño de la muestra es pequeño (por ejemplo, inferior a 20 o menos), ¿puedo confiar en este resultado? Si no es así, ¿cómo debo tratar y / o interpretar este resultado?
Respuestas:
En teoría, si todas las suposiciones de la prueba t son verdaderas, entonces no hay problema con un tamaño de muestra pequeño.
En la práctica, existen algunas suposiciones que no son del todo ciertas que podemos evitar para tamaños de muestra grandes, pero pueden causar problemas para tamaños de muestra pequeños. ¿Sabes si la distribución subyacente se distribuye normalmente? ¿Son todas las muestras independientes e idénticamente distribuidas?
Si duda de la validez de la prueba, una alternativa que puede utilizar es el arranque. Bootstrapping implica volver a tomar muestras de su muestra para ver con qué frecuencia la hipótesis nula es verdadera o falsa. Quizás su hipótesis nula es y su valor p es 0.05, pero el arranque muestra que la media de la muestra es menor que cero el 10% del tiempo. Esto indicaría que fue una casualidad lo que causó un valor p de 0.05 y usted debería estar menos seguro de que la hipótesis nula es falsa.
Rara vez debe confiar en un resultado significativo único. No dijo por qué estaba usando una prueba de una cola en lugar de una de dos colas, ¡así que espero que tenga una buena razón para hacerlo además de luchar para poder reclamar un resultado estadísticamente significativo!
Dejando eso de lado, considere lo siguiente de la pág. 261 de Sauro, J. y Lewis, JR (2016). Cuantificación de la experiencia del usuario: estadísticas prácticas para la investigación del usuario, 2ª ed. Cambridge, MA: Morgan-Kaufmann.
Cómo Ronald Fisher recomendó usar valores p
Cuando Karl Pearson era el gran anciano de las estadísticas y Ronald Fisher era un recién llegado relativo, Pearson, aparentemente amenazado por las ideas y la habilidad matemática de Fisher, usó su influencia para evitar que Fisher publicara en las principales revistas estadísticas de la época, Biometrika and the Journal. de la Real Sociedad Estadística. En consecuencia, Fisher publicó sus ideas en una variedad de otros lugares, como revistas agrícolas y meteorológicas, incluidos varios documentos para las Actas de la Sociedad para la Investigación Psíquica. Fue en uno de los artículos de esta última revista que mencionó la convención de establecer lo que ahora llamamos el error aceptable de Tipo I (alfa) a 0.05 y, críticamente, también mencionó la importancia de la reproducibilidad cuando se encuentra con un resultado significativo inesperado:
Se considera que una observación es significativa, si rara vez se hubiera producido, en ausencia de una causa real del tipo que estamos buscando. Es una práctica común juzgar un resultado significativo, si es de tal magnitud que hubiera sido producido por casualidad no más de una vez en veinte juicios. Este es un nivel de importancia arbitrario, pero conveniente, para el investigador práctico, pero no significa que se deje engañar una vez cada veinte experimentos. La prueba de significación solo le dice qué ignorar, es decir, todos los experimentos en los que no se obtienen resultados significativos. Solo debe afirmar que un fenómeno es experimentalmente demostrable cuando sabe cómo diseñar un experimento para que rara vez no se obtenga un resultado significativo. Por consiguiente, resultados significativos aislados que no sabe cómo reproducir se dejan en suspenso a la espera de una mayor investigación. (Fisher, 1929, p. 191)
Referencia
Fisher, RA (1929). El método estadístico en la investigación psíquica. Actas de la Society for Psychical Research, 39, 189-192.
Imagínese estar en una situación en la que está haciendo muchas pruebas similares, en un conjunto de circunstancias en las que una fracción de los valores nulos son ciertos.
De hecho, modelémoslo usando un modelo de urna super simple; en la urna, hay bolas numeradas, cada una correspondiente a un experimento que puede elegir hacer, algunas de las cuales tienen el valor nulo verdadero y otras que tienen el valor nulo falso. Llame a la proporción de verdaderos nulos en la urna
¿Qué proporción de sus rechazos será "correcta"?
(es decir, si no tiene una potencia bastante alta), ¡muchos de nuestros rechazos son errores!
Entonces, cuando el tamaño de su muestra es pequeño (y, por lo tanto, la potencia es baja), si una fracción razonable de nuestros valores nulos fuera cierta, a menudo estaríamos cometiendo un error cuando la rechazamos.
La situación no es mucho mejor si casi todos nuestros valores nulos son estrictamente falsos, mientras que la mayoría de nuestros rechazos serán correctos (trivialmente, ya que los pequeños efectos siguen siendo estrictamente falsos), si el poder no es alto, una fracción sustancial de esos los rechazos serán "en la dirección equivocada" - concluiremos que el nulo es falso con bastante frecuencia porque por casualidad la muestra resultó estar en el lado equivocado (este puede ser un argumento para usar pruebas unilaterales - cuando las pruebas unilaterales hacen sentido: al menos para evitar rechazos que no tienen sentido si es difícil obtener muestras de gran tamaño).
Podemos ver que los tamaños de muestra pequeños ciertamente pueden ser un problema.
[Esta proporción de rechazos incorrectos se denomina tasa de descubrimiento falso ]
Si tiene una idea del tamaño probable del efecto, está en una mejor posición para juzgar cuál podría ser un tamaño de muestra adecuado. Con grandes efectos anticipados, un rechazo con un tamaño de muestra pequeño no sería necesariamente una preocupación importante.
Algunos de los trabajos originales de Gosset (también conocidos como Student), para los cuales desarrolló la prueba t, incluyeron muestras de levadura de n = 4 y 5. La prueba fue diseñada específicamente para muestras muy pequeñas. De lo contrario, la aproximación normal estaría bien. Dicho esto, Gosset estaba haciendo experimentos muy cuidadosos y controlados sobre datos que él entendía muy bien. Hay un límite para la cantidad de cosas que una cervecería tiene que probar, y Gosset pasó su vida laboral en Guinness. Él conocía sus datos.
Sospecho un poco tu énfasis en las pruebas unilaterales. La lógica de las pruebas es la misma sea cual sea la hipótesis, pero he visto a personas que realizan una prueba unilateral significativa cuando la de dos lados no era significativa.
Esto es lo que implica una prueba unilateral (superior). Está probando que una media es 0. Realiza los cálculos y está preparado para rechazar cuando T> 2.5. Ejecutas tu experimento y observas que T = -50,000. Dices "phhhhht" y la vida continúa. A menos que sea físicamente imposible que el estadístico de prueba se hunda muy por debajo del valor del parámetro hipotético, y a menos que nunca tome ninguna decisión si el estadístico de prueba va en la dirección opuesta a la esperada, debe usar una prueba de dos lados.
Lo principal de lo que debe preocuparse es el poder de su prueba. En particular, es posible que desee hacer un análisis de potencia post-hoc para determinar qué tan probable es, dado el tamaño de su muestra, para identificar un verdadero efecto significativo de un tamaño razonable. Si los efectos típicos son muy grandes, un n de 8 podría ser totalmente adecuado (como con muchos experimentos en biología molecular). Sin embargo, si los efectos que le interesan suelen ser sutiles (como en muchos experimentos de psicología social), un n de miles aún podría tener poca potencia.
Esto es importante porque las pruebas de baja potencia pueden dar resultados muy engañosos. Por ejemplo, si su prueba tiene poca potencia, incluso si encuentra un resultado significativo, tiene una probabilidad relativamente alta de hacer lo que Andrew Gelman llama un error "Tipo S", es decir, hay un efecto real pero en la dirección opuesta, o un error de "Tipo M", es decir, hay un efecto real pero la magnitud real es mucho más débil que la estimada a partir de los datos.
Gelman y Carlin escribieron un documento útil sobre el análisis de poder post-hoc que creo que se aplica en su caso. Es importante destacar que recomiendan el uso de datos independientes (es decir, no los datos que probó, sino las revisiones, el modelado, los resultados de experimentos similares, etc.) para estimar un tamaño de efecto real plausible. Al realizar un análisis de potencia utilizando ese tamaño de efecto verdadero estimado plausible y compararlo con sus resultados, puede determinar la probabilidad de cometer un error de Tipo S y la "tasa de exageración" típica, y así tener una mejor idea de cuán fuerte es realmente su evidencia.
Se podría decir que todo el punto de significación estadística es responder la pregunta "¿Puedo confiar en este resultado, dado el tamaño de la muestra?". En otras palabras, el objetivo es controlar el hecho de que con tamaños de muestra pequeños, puede obtener platijas, cuando no existe un efecto real. El significado estadístico, es decir, el valor p, es precisamente la respuesta a la pregunta, "si no existiera un efecto real, ¿qué posibilidades tendría de tener una casualidad tan grande como esta?". Si es muy poco probable, eso indica que no es una casualidad.
Entonces, la respuesta es "sí", si el valor p es bajo, y si ha seguido los procedimientos estadísticos correctos y está cumpliendo con los supuestos relevantes, entonces sí, es una buena evidencia y tiene el mismo peso que si fuera obtuvo el mismo valor p con un tamaño de muestra muy grande.