¿Cuáles son las condiciones de datos que debemos tener en cuenta, donde los valores p pueden no ser la mejor manera de decidir la significación estadística? ¿Existen tipos de problemas específicos que caen en esta categoría?
¿Cuáles son las condiciones de datos que debemos tener en cuenta, donde los valores p pueden no ser la mejor manera de decidir la significación estadística? ¿Existen tipos de problemas específicos que caen en esta categoría?
Respuestas:
Está preguntando sobre el dragado de datos , que es lo que sucede cuando se prueba una gran cantidad de hipótesis contra un conjunto de datos, o cuando se prueban hipótesis contra un conjunto de datos sugeridas por los mismos datos.
En particular, revise el riesgo de hipótesis múltiples y las hipótesis de prueba sugeridas por los datos .
La solución es usar algún tipo de corrección para la tasa de descubrimiento falso o la tasa de error familiar , como el método de Scheffé o la corrección de Bonferroni (muy antigua) .
De una manera algo menos rigurosa, puede ser útil filtrar sus descubrimientos por el intervalo de confianza para el odds ratio (OR) para cada resultado estadístico. Si el intervalo de confianza del 99% para la razón de probabilidades es 10-12, entonces el OR es <= 1 con alguna probabilidad extremadamente pequeña, especialmente si el tamaño de la muestra también es grande. Si encuentra algo como esto, probablemente sea un efecto fuerte, incluso si surgió de una prueba de millones de hipótesis.
No debe considerar el valor p fuera de contexto.
Un punto bastante básico (como lo ilustra xkcd ) es que debes considerar cuántas pruebas estás haciendo realmente. Obviamente, no debería sorprenderse ver p <0.05 para una de cada 20 pruebas, incluso si la hipótesis nula es cierta cada vez.
Un ejemplo más sutil de esto ocurre en la física de alta energía, y se conoce como el efecto de mirar hacia otro lado . Cuanto más grande sea el espacio de parámetros para buscar una señal que pueda representar una nueva partícula, es más probable que vea una señal aparente que realmente se deba a fluctuaciones aleatorias.
Una cosa que debe tener en cuenta es el tamaño de la muestra que está utilizando. Muestras muy grandes, como los economistas que usan datos del censo, conducirán a valores p desinflados. Este documento "Demasiado grande para fallar: Muestras grandes y el problema del valor p" cubre algunos de los problemas.