Este artículo " The Odds, Continually Updates" del NY Times me llamó la atención. Para ser breve, afirma que
[Las estadísticas bayesianas] están demostrando ser especialmente útiles para abordar problemas complejos, incluidas búsquedas como la que la Guardia Costera usó en 2013 para encontrar al pescador desaparecido, John Aldridge (aunque no, hasta ahora, en la búsqueda del vuelo 370 de Malaysia Airlines). ......, las estadísticas bayesianas están recorriendo todo, desde la física hasta la investigación del cáncer, la ecología y la psicología ...
En el artículo, también hay algunas críticas sobre el valor p del frecuentista, por ejemplo:
Los resultados generalmente se consideran "estadísticamente significativos" si el valor p es inferior al 5 por ciento. Pero hay un peligro en esta tradición, dijo Andrew Gelman, profesor de estadística en Columbia. Incluso si los científicos siempre hicieron los cálculos correctamente, y no lo hacen, argumenta, aceptar todo con un valor p del 5 por ciento significa que uno de cada 20 resultados "estadísticamente significativos" no es más que ruido aleatorio.
Además de lo anterior, quizás el artículo más famoso que critica el valor p es este: "Método científico: errores estadísticos" por Regina Nuzzo de Nature , en el que se han discutido muchos temas científicos planteados por el enfoque del valor p, como las preocupaciones de reproducibilidad, piratería de valor p, etc.
Los valores de P, el 'estándar de oro' de la validez estadística, no son tan confiables como muchos científicos suponen. ...... Quizás la peor falacia es el tipo de autoengaño por el cual el psicólogo Uri Simonsohn de la Universidad de Pennsylvania y sus colegas han popularizado el término piratería P; También se conoce como dragado de datos, espionaje, pesca, persecución de significado y doble inmersión. "Hackear P", dice Simonsohn, "está probando varias cosas hasta que obtenga el resultado deseado", incluso inconscientemente. ...... "Ese hallazgo parece haberse obtenido a través de p-hacking, los autores descartaron una de las condiciones para que el valor p general sea menor a .05", y "Ella es una p-hacker, ella siempre monitorea los datos mientras se recopilan ".
Otra cosa es una trama interesante como la siguiente desde aquí , con el comentario sobre la trama:
No importa cuán pequeño sea su efecto, siempre puede hacer el trabajo duro de recopilar datos para pasar el umbral de p <.05. Mientras el efecto que está estudiando no sea inexistente, los valores p solo miden cuánto esfuerzo ha puesto en recopilar datos.
Con todo lo anterior, mis preguntas son:
¿Qué significa precisamente el argumento de Andrew Gelman, en la cita del segundo bloque? ¿Por qué interpretó el valor p del 5 por ciento como "uno de cada 20 resultados estadísticamente significativos observan ruido aleatorio"? No estoy convencido ya que para mí el valor p se usa para hacer inferencia en un solo estudio. Su punto parece estar relacionado con las pruebas múltiples.
Actualización: Consulte el blog de Andrew Gelman sobre esto: ¡ No, no dije eso! (Créditos a @Scortchi, @whuber).
Dadas las críticas sobre el valor p, y también dado que hay muchos criterios de información, como AIC, BIC, Malp's para evaluar la importancia de un modelo (por lo tanto, variables), ¿no deberíamos usar el valor p para la selección de variables en ¿todos menos usan esos criterios de selección de modelo?
- ¿Hay alguna buena guía práctica de usar el valor p para el análisis estadístico que pueda conducir a resultados de investigación más confiables?
¿Sería el marco de modelado bayesiano una mejor manera de perseguir, como defienden algunos estadísticos? Específicamente, ¿sería más probable que el enfoque bayesiano resuelva el hallazgo falso o manipule los problemas de datos? Aquí tampoco estoy convencido, ya que lo anterior es muy subjetivo en el enfoque bayesiano. ¿Existen estudios prácticos y bien conocidos que muestren que el enfoque bayesiano es mejor que el valor p de los frecuentistas, o al menos en algunos casos particulares?
Actualización: Me interesaría especialmente si hay casos en los que el enfoque bayesiano es más confiable que el enfoque del valor p de los frecuentistas. Por "confiable", quiero decir que es menos probable que el enfoque bayesiano manipule los datos para obtener los resultados deseados. ¿Alguna sugerencia?
Actualización 6/9/2015
Acabo de notar la noticia y pensé que sería bueno ponerla aquí para su discusión.
Revista de psicología prohíbe los valores de P
Una controvertida prueba estadística finalmente ha llegado a su fin, al menos en una revista. A principios de este mes, los editores de Basic and Applied Social Psychology (BASP) anunciaron que la revista ya no publicaría artículos que contengan valores de P porque las estadísticas se utilizaron con demasiada frecuencia para respaldar investigaciones de menor calidad.
Junto con un artículo reciente, "El voluble valor de P genera resultados irreproducibles" de Nature , sobre el valor de P.
Actualización 5/8/2016
En marzo, la Asociación Estadounidense de Estadística (ASA, por sus siglas en inglés) emitió declaraciones sobre la significación estadística y los valores p, "... La declaración ASA está destinada a dirigir la investigación en una 'era p <0.05'".
Esta declaración contiene 6 principios que abordan el mal uso del valor p:
- Los valores P pueden indicar cuán incompatibles son los datos con un modelo estadístico especificado.
- Los valores P no miden la probabilidad de que la hipótesis estudiada sea verdadera, o la probabilidad de que los datos se hayan producido solo por azar.
- Las conclusiones científicas y las decisiones comerciales o políticas no deben basarse solo en si un valor p supera un umbral específico.
- La inferencia adecuada requiere informes completos y transparencia.
- Un valor p, o significancia estadística, no mide el tamaño de un efecto o la importancia de un resultado.
- Por sí mismo, un valor p no proporciona una buena medida de evidencia con respecto a un modelo o hipótesis.
Detalles: "La declaración de ASA sobre valores p: contexto, proceso y propósito" .