¿El valor exacto de un "valor p" no tiene sentido?

Tuve una discusión con un estadístico en 2009 donde afirmó que el valor exacto de un valor p es irrelevante: lo único que es importante es si es significativo o no. Es decir, un resultado no puede ser más significativo que otro; sus muestras, por ejemplo, provienen de la misma población o no.

Tengo algunos reparos con esto, pero tal vez pueda entender la ideología:

El umbral del 5% es arbitrario, es decir que p = 0.051 no es significativo y que p = 0.049 sí, no debería cambiar realmente la conclusión de su observación o experimento, a pesar de que un resultado es significativo y el otro no es significativo.

La razón por la que menciono esto ahora es que estoy estudiando para una maestría en Bioinformática, y después de hablar con personas en el campo, parece haber un impulso determinado para obtener un valor p exacto para cada conjunto de estadísticas que hacen. Por ejemplo, si 'logran' un valor p de p <1.9 × ^10-12 , quieren demostrar cuán significativo es su resultado, y que este resultado es SUPER informativo. Este problema se ejemplifica con preguntas como: ¿Por qué no puedo obtener un valor p menor que 2.2e-16? , por lo que desean registrar un valor que indique que por casualidad esto sería MUCHO menos de 1 en un billón. Pero veo poca diferencia en demostrar que este resultado ocurriría menos de 1 en un billón en comparación con 1 en un billón.
Puedo apreciar entonces que p <0.01 muestra que hay menos del 1% de posibilidades de que esto ocurra, mientras que p <0.001 indica que un resultado como este es aún más improbable que el valor p antes mencionado, pero si sus conclusiones se sacan completamente ¿diferente? Después de todo, ambos son valores p significativos. La única forma en que puedo concebir querer registrar el valor p exacto es durante una corrección de Bonferroni por la cual el umbral cambia debido al número de comparaciones realizadas, disminuyendo así el error tipo I. Pero aún así, ¿por qué querría mostrar un valor p que sea 12 órdenes de magnitud más pequeño que su umbral de importancia?
¿Y no es la aplicación de la corrección de Bonferroni en sí misma un poco arbitraria también? En el sentido de que inicialmente la corrección se considera muy conservadora y, por lo tanto, hay otras correcciones que uno puede elegir para acceder al nivel de significancia que el observador podría usar para sus comparaciones múltiples. Pero debido a esto, no es el punto en el que algo se vuelve significativo, esencialmente variable, dependiendo de qué estadísticas quiera usar el investigador. ¿Deberían las estadísticas estar tan abiertas a la interpretación?

En conclusión, ¿no deberían ser menos subjetivas las estadísticas (aunque supongo que la necesidad de que sean subjetivas es consecuencia de un sistema multivariado), pero en última instancia quiero alguna aclaración: ¿puede algo ser más significativo que otra cosa? ¿Y será suficiente p <0.001 con respecto a tratar de registrar el valor p exacto?

statistical-significance p-value bonferroni

— Mark Ramotowski
fuente

Esto es bastante interesante: stat.washington.edu/peter/342/nuzzo.pdf

— Dan

Relacionado libremente: en mi respuesta a la pregunta Cuándo usar el marco de Fisher y Neyman-Pearson , sostengo que hay un rol para cada marco. Manteniendo w / mi posición allí, diría que los valores p exactos no importarían en w / i el marco NP, pero pueden w / i el marco Fisherian (en la medida en que el número de dígitos reportados sea realmente confiable).

— gung - Restablece a Monica

Es sorprendente cuánto quieren sostener algunos estadísticos el concepto de un valor p cuando generalmente es la respuesta correcta a la pregunta incorrecta. Supongamos que los valores p no se implementaron en ningún paquete de software de estadísticas. Dudo que la gente escriba su propio código para obtenerlo.

— probabilidadislogica

@probabilityislogic: habiendo cortado mis dientes estadísticos en las pruebas de permutación, los valores p son una forma muy natural de pensar en ese caso, por lo que podría escribir mi propio código para obtenerlos si no lo fueran ... y, de hecho, en En las raras ocasiones en que hago pruebas, generalmente son para situaciones atípicas que requieren simulación o alguna forma de remuestreo, descubrí que en realidad tiendo a hacerlo. Tiendo a decir que las pruebas de hipótesis generalmente responden a la pregunta incorrecta. En la rara ocasión en que lo hacen, creo que tienen valor (no menos importante, otras personas no están obligadas por mi nivel de importancia).

— Glen_b -Reinstate Monica

@glen_b: mi problema con los valores p es que no proporcionan "la respuesta" a ninguna prueba de hipótesis por sí mismos, ya que ignoran las alternativas. Si está restringido a un solo número, entonces el valor de la probabilidad de los datos es una estadística mucho mejor que el valor p (además de tener los mismos problemas que p). De esta manera, las personas no están sujetas a su elección de estadística de prueba (además de no estar sujetas a su umbral de importancia).

— probabilidadislogica

Respuestas:

La tasa de error de tipo 1 / falso rechazo no es completamente arbitraria, pero sí, está cerca. Es algo preferible a porque es menos complejo cognitivamente (a las personas les gustan los números redondos y los múltiplos de cinco ). Es un compromiso decente entre el escepticismo y la practicidad, aunque tal vez un poco desactualizado: los métodos modernos y los recursos de investigación pueden hacer que estándares más altos (es decir, valores más bajos) sean preferibles, si los estándares deben existir ⁽^{Johnson, 2013}⁾ $\alpha=.05$ $\alpha=.051$ $p$ .

En mi opinión, el mayor problema que la elección del umbral es la opción a menudo no examinada de usar un umbral donde no es necesario o útil. En situaciones en las que se debe hacer una elección práctica, puedo ver el valor, pero mucha investigación básica no requiere la decisión de descartar la evidencia y renunciar a la posibilidad de rechazar el nulo solo porque la evidencia de una muestra dada en su contra se queda corta. de casi cualquier umbral razonable. Sin embargo, gran parte de los autores de esta investigación se sienten obligados a hacerlo por convención y se resisten incómodamente, inventando términos como significado "marginal" para pedir atención cuando pueden sentir que se escapa porque su público a menudo no se preocupa por s . $p$ $\ge.05$ $p$ interpretación del valor, verá mucha disensión sobre la interpretación de los valores por binario / decisiones con respecto al nulo. $p$ fail toreject
$p$ $p$ $p$ s por este motivo. Por favor, comprenda que este punto es pura defensa del diablo ...

$p$
$\alpha$

$p$

fail toreject $p$ -valor informarse? (¿y por qué R pone un mínimo en 2.22e-16?) "- ¡es mucho mejor que las respuestas a la versión de esa pregunta que vinculó en Stack Overflow!

^{Referencias

- Johnson, VE (2013). Normas revisadas para la evidencia estadística. Actas de la Academia Nacional de Ciencias, 110 (48), 19313–19317. Recuperado de http://www.pnas.org/content/110/48/19313.full.pdf .

- Lew, MJ (2013). Para P o no para P: Sobre la naturaleza evidencial de los valores P y su lugar en la inferencia científica. arXiv: 1311.0081 [stat.ME]. Recuperado de http://arxiv.org/abs/1311.0081 .}

— Nick Stauner
fuente

+1, muchos buenos pensamientos aquí. 1 objeción, sin embargo, re # 1, diría que a menudo deberíamos tener estándares más bajos (es decir, valores p más altos) como preferibles. A menudo es difícil obtener suficientes datos para tener un buen poder para estudiar algo. He realizado varios análisis de poder para los médicos que desean estudiar una afección poco común. Dicen, 'esto está muy poco estudiado, tengo una idea para un nuevo enfoque, probablemente podamos obtener 50 pacientes con esto en los próximos dos años', y yo digo 'su poder será del 45%', y el proyecto es abandonado. Las enfermedades raras continuarán siendo poco estudiadas si p debe ser 0.05 o menos.

— gung - Restablecer Monica

@gung: estoy completamente de acuerdo. Cité a Johnson (2013) solo porque estaba al tanto de su argumento, no porque esté de acuerdo con él :) OMI, que tiene un estándar convencional que es inflexible e insensible a las preocupaciones que usted describe (lo que refleja mi punto en el segundo párrafo de mi la respuesta a # 3) es uno de los problemas centrales, y ajustarlo hacia arriba o hacia abajo no lo resolverá. Cuando no hay una necesidad real de un disco y rápida fail to/ rejectdecisión, creo que es mucho mejor para hacer el juicio de lo valioso de una evidencia se basa en mucho más que la probabilidad de que la muestra dada la nula.

— Nick Stauner

Excelente discusión Un artículo interesante de cierta relevancia es el de Gelman y Stern. La diferencia entre "significativo" y "no significativo" no es estadísticamente significativa (publicada más tarde en American Statistician, 2006), que no diría que caracteriza el valor de p como necesariamente no tiene sentido, pero inyectaría una fuerte nota de precaución con respecto a poner mucho énfasis en comparar los valores p (en lugar de estimar los efectos, por ejemplo). Gelman ha discutido temas relacionados con esto con frecuencia en su blog.

— Glen_b -Reinstate a Monica

p

$p$

p

$p$

p

$p$

Parece que Gelman también proporciona un enlace al pdf del artículo publicado en su sitio.

— Glen_b: reinstala a Monica

Me parece que, si un valor es significativo, su valor exacto es significativo.

El valor p responde a esta pregunta:

Si, en la población de la que se extrajo esta muestra al azar, la hipótesis nula era cierta, ¿cuál es la probabilidad de obtener una estadística de prueba al menos tan extrema como la que obtuvimos en la muestra?

¿Qué pasa con esta definición hace que un valor exacto no tenga sentido?

Esta es una pregunta diferente de las sobre valores extremos de p. El problema con las declaraciones que involucran p con muchos ceros es acerca de qué tan bien podemos estimar p en los extremos. Como no podemos hacerlo muy bien, no tiene sentido usar estimaciones tan precisas de p. Esta es la misma razón por la que no decimos que p = 0.0319281010012981. No conocemos esos últimos dígitos con ninguna confianza.

¿Deberían ser diferentes nuestras conclusiones si p <0.001 en lugar de p <0.05? O, para usar números precisos, ¿deberían ser diferentes nuestras conclusiones si p = 0.00023 en lugar de p = 0.035?

Creo que el problema es con la forma en que generalmente concluimos cosas sobre p. Decimos "significativo" o "no significativo" en base a un nivel arbitrario. Si usamos estos niveles arbitrarios, entonces, sí, nuestras conclusiones serán diferentes. Pero no es así como deberíamos pensar sobre estas cosas. Deberíamos analizar el peso de la evidencia y las pruebas estadísticas son solo una parte de esa evidencia. Conectaré (una vez más) los "criterios MÁGICOS" de Robert Abelson:

Magnitud: ¿qué tan grande es el efecto?

Articulación: ¿con qué precisión se dice? ¿Hay muchas excepciones?

Generalidad: ¿a qué grupo se aplica?

Intereses: ¿le importará a la gente?

Credibilidad: ¿tiene sentido?

Es la combinación de todos estos lo que importa. Tenga en cuenta que Abelson no menciona los valores de p en absoluto, aunque sí son una especie de híbrido de magnitud y articulación.

— Peter Flom - Restablece a Monica
fuente

No solemos decirlo, pero técnicamente el valor p solo refleja algo sobre la "probabilidad de obtener un estadístico de prueba al menos tan extremo como el que obtuvimos en la muestra" si la hipótesis nula es verdadera, nuestra estimación muestral de la varianza de la población es perfectamente precisa, y cumplimos con todos los demás supuestos de nuestra prueba. Agregue algunos intervalos de confianza alrededor de algunos valores p a través de bootstrapping y creo que verá que con frecuencia tampoco confiamos tanto en el lugar de las centésimas.

— russellpierce

En resumen, es un contrafáctico tan complicado que intentar cuantificar un valor p es contraproducente cuando realmente deberíamos (como implica) volver a la MAGIA.

— russellpierce

Tengo que admitir que no había pensado poner intervalos de confianza (o intervalos de credibilidad) alrededor de los valores p. Me pregunto cuánto se ha hecho en esta área.

— Peter Flom - Restablece a Monica

No tengo una cita a mano, pero sé que hay trabajo en ese sentido; sin embargo, es algo académico porque puedes hacer que los intervalos de confianza de tus intervalos de confianza de tus intervalos de confianza sean casi infinitos (hay un máximo varianza que se estima razonablemente a partir de cualquier conjunto de datos). Tuve una conversación bastante larga y detallada en este sentido con @Nick Stauner alguna vez. Es posible que todavía tenga algunos de los artículos que desenterró durante esa conversación para llevar a la mesa.

— russellpierce

No recuerdo nada sobre los intervalos de confianza para los valores de p , pero podría haber pasado por encima de esas secciones. Yo tampoco estaba interesado en hacer intervalos de confianza para los valores de p ;)

— Nick Stauner