¿Cuándo son engañosos los valores p?


14

¿Cuáles son las condiciones de datos que debemos tener en cuenta, donde los valores p pueden no ser la mejor manera de decidir la significación estadística? ¿Existen tipos de problemas específicos que caen en esta categoría?


2
Respuesta sarcástica: casi siempre. Existe un gran incentivo para crear errores de Tipo 1 (es decir, "falsas alarmas") cuando los analistas examinan los datos, por lo que casi todos los valores p que encontrará son "demasiado" pequeños.
statsRus

77
Solo lanzando esto por ahí, pero ¿no sería mejor hacer este tipo de preguntas en Cross Validated ?
buruzaemon

1
@buruzaemon: Quizás. Hice una búsqueda, esta es la coincidencia más cercana: stats.stackexchange.com/questions/67320/… Parece que no hay más que un puñado de preguntas sobre esto.
Alex I

Respuestas:


9

Está preguntando sobre el dragado de datos , que es lo que sucede cuando se prueba una gran cantidad de hipótesis contra un conjunto de datos, o cuando se prueban hipótesis contra un conjunto de datos sugeridas por los mismos datos.

En particular, revise el riesgo de hipótesis múltiples y las hipótesis de prueba sugeridas por los datos .

La solución es usar algún tipo de corrección para la tasa de descubrimiento falso o la tasa de error familiar , como el método de Scheffé o la corrección de Bonferroni (muy antigua) .

De una manera algo menos rigurosa, puede ser útil filtrar sus descubrimientos por el intervalo de confianza para el odds ratio (OR) para cada resultado estadístico. Si el intervalo de confianza del 99% para la razón de probabilidades es 10-12, entonces el OR es <= 1 con alguna probabilidad extremadamente pequeña, especialmente si el tamaño de la muestra también es grande. Si encuentra algo como esto, probablemente sea un efecto fuerte, incluso si surgió de una prueba de millones de hipótesis.


1
Si bien Bonferroni es definitivamente de la vieja escuela, sigue siendo bastante popular. Se relaciona con un método llamado corrección de Šidák ( en.wikipedia.org/wiki/%C5%A0id%C3%A1k_correction ). Lo estoy llamando, porque en un sistema de publicidad dirigido a gran escala en el que trabajé pudimos implementar este enfoque como UDF en Hive. Sin embargo, esto solo funciona mejor cuando tienes independencia entre las pruebas. Si no, debe recurrir a Bonferroni u otro método.
Chris Simokat

5

No debe considerar el valor p fuera de contexto.

Un punto bastante básico (como lo ilustra xkcd ) es que debes considerar cuántas pruebas estás haciendo realmente. Obviamente, no debería sorprenderse ver p <0.05 para una de cada 20 pruebas, incluso si la hipótesis nula es cierta cada vez.

Un ejemplo más sutil de esto ocurre en la física de alta energía, y se conoce como el efecto de mirar hacia otro lado . Cuanto más grande sea el espacio de parámetros para buscar una señal que pueda representar una nueva partícula, es más probable que vea una señal aparente que realmente se deba a fluctuaciones aleatorias.


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.