Acomodar vistas arraigadas de valores p

A veces, en los informes, incluyo un descargo de responsabilidad sobre los valores p y otras estadísticas inferenciales que he proporcionado. Digo que, dado que la muestra no fue aleatoria, esas estadísticas no se aplicarían estrictamente. Mi redacción específica generalmente se da en una nota al pie:

"Si bien, estrictamente hablando, las estadísticas inferenciales solo son aplicables en el contexto del muestreo aleatorio, seguimos la convención para informar los niveles de significancia y / o los intervalos de confianza como criterios convenientes incluso para muestras no aleatorias. Vea la inferencia estadística de Michael Oakes : Un comentario para lo social y ciencias del comportamiento (NY: Wiley, 1986).

En un par de ocasiones, una vez para un artículo revisado por pares, una o dos veces en un entorno no académico, el editor o revisor se opuso a este descargo de responsabilidad, calificándolo de confuso, y consideró que los hallazgos inferenciales simplemente deberían quedar tal como están escritos. (y recibir el manto de autoridad). ¿Alguien más ha encontrado este problema y ha encontrado una buena solución? Por un lado, la comprensión de las personas de los valores p es generalmente triste, incluso en el contexto de un muestreo aleatorio, por lo que quizás no importa mucho lo que digamos. Por otro lado, contribuir más a los malentendidos parece formar parte del problema. Debo agregar que con frecuencia trato con estudios de encuestas, donde la asignación aleatoria no se aplica y donde las simulaciones de Monte Carlo a menudo no abordan el tema de la representatividad.

inference p-value

— rolando2
fuente

el comentario sobre un revisor es extremadamente triste, uno esperaría que una persona en esa posición al menos no mostrara abiertamente su ignorancia, y al hacerlo, respaldaría aún más la interpretación errónea del método estadístico.

— richiemorrisroe

Corríjame si me equivoco, pero la aleatoriedad del muestreo simplemente afecta el grado en que puede generalizar los hallazgos. En contraste, la asignación aleatoria es la característica más crítica para la inferencia causal.

— Mike Lawrence

Mike, estoy de acuerdo contigo. ¿Hace usted este punto para extender la discusión o para indicar desacuerdo con algo que he dicho?

— rolando2

@richiemorrisroe: sería tonto esperar eso de todos los revisores, pero supongo que uno puede esperar un futuro en el que podamos esperar eso, y ciertamente deberíamos presionar a los editores para que hagan más para exigir y hacer cumplir eso de lo que hacen actualmente. Rolando, creo que Mike es simplemente un punto de aclaración para desambiguar esta discusión de los problemas relacionados con la inferencia causal. Evidentemente, algunas personas lo han encontrado útil, aunque personalmente pensé que ya era lo suficientemente claro. Si tengo razón, esto sin darse cuenta mide la confusión de los demás sobre los valores de p , lo que motiva la publicación original.

— Nick Stauner

Respuestas:

De hecho, hay un argumento para no incluir el descargo de responsabilidad. Francamente, un breve tratado sobre la naturaleza de los valores p en un artículo de revista es un poco desagradable, y por un momento tendría que hacer una pausa e intentar averiguar si había hecho algo en particular ... .esotérico ... para justificar dedicar ese espacio a un punto de definición.

Básicamente, como revisor, lo llamaría innecesario porque el lector ya debería saber qué es un valor p y qué hace. Incluso podría objetarlo porque tomar esa nota en realidad no evita ninguno de los muchos delitos de análisis e interpretación que acompañan a los valores p, simplemente se pone una capa de "confía en mí, sé lo que estoy haciendo". También es un poco extraño: "Voy a tomar una posición audaz contra los valores p, pero no tan audaz como para no informarlos".

Cuando considero "puntos de vista arraigados sobre los valores p", estoy mucho menos preocupado por algo como lo que publicó anteriormente, y mucho más preocupado por la insistencia de los revisores en la significación estadística para ser publicado o el foco del documento (poner una estrella por un hallazgo y de repente es un gran problema) o la combinación de significación estadística con el significado de un hallazgo

— Fomite
fuente

No creo que esto responda al OP. Supongo que @ rolando2 informa otras estadísticas que son más centrales para sus discusiones (por ejemplo, tamaños de efectos), y en su mayoría informa los valores p como una forma de acomodar las expectativas convencionales, a pesar de que no se aplican estrictamente. Como tal, deberíamos estar fuera de lugar en cualquier medida que estemos leyendo demasiado en los valores de p ; Debemos considerar su motivación para el descargo de responsabilidad. Los lectores no saben lo que deberían; el OP menciona esto. El descargo de responsabilidad promueve la duda, no la confianza. No es extraño objetar a un estándar mientras se ajusta a él; No es una postura audaz.

— Nick Stauner

@NickStauner No veo cómo no "responde" al OP. Tal vez no respalde lo que quieren hacer, pero en mi opinión es una ruptura realmente extraña del contenido real del documento, y también es inútil: "Esto está mal, pero voy a continuar como si fuera bien porque es lo que todos esperan "no me dice si lo incorrecto importa .

— Fomite

La pregunta del OP: "¿Alguien más ha encontrado este problema y ha encontrado una buena solución?" Su respuesta ignora la pregunta literal para responder a la idea, y en su mayoría ofrece sus opiniones sobre por qué la idea debe ser rechazada. Sin embargo, está comenzando a insinuar una crítica constructiva de la idea del OP: no parece pensar que la cita de Oakes le diga por qué es importante. Ampliaré esto un poco en una respuesta propia.

— Nick Stauner

El uso de estadísticas inferenciales puede justificarse no solo según un modelo de población, sino también según un modelo de aleatorización. Este último no hace suposiciones sobre la forma en que se ha obtenido la muestra. De hecho, Fisher fue quien sugirió que el modelo de aleatorización debería ser la base para la inferencia estadística (a diferencia de Neyman y Pearson). Ver, por ejemplo:

Ernst, MD (2004). Métodos de permutación: una base para la inferencia exacta. Ciencia estadística, 19, 676-685. [enlace (acceso abierto)]

Ludbrook, J. y Dudley, H. (1998). Por qué las pruebas de permutación son superiores a las pruebas t y F en la investigación biomédica. Estadístico estadounidense, 52, 127-132. [enlace (si tiene acceso a JSTOR)]

Sin embargo, de alguna manera dudo que los editores o revisores en cuestión estuvieran usando esto como la razón para llamar a su descargo de responsabilidad "confuso".

— Wolfgang
fuente

Wolfgang: puntos interesantes y útiles. Sin embargo, debería haber dejado claro que gran parte de mi trabajo está en encuestas.

— rolando2

Si el objetivo principal es hacer algún tipo de inferencia a la población y el mecanismo de muestreo es de tal naturaleza que la representatividad de la muestra es cuestionable, entonces, de hecho, cualquier inferencia también será bastante cuestionable. Esencialmente, solo puede hacer una inferencia a esa parte de la población de la que el mecanismo de muestreo proporciona una representación. En principio, las inferencias que haga serán apropiadas para esa parte de la población. Si esa parte de la población es de algún interés para usted (o para los lectores) es otro tema.

— Wolfgang

$p$ De hecho, los valores son necesarios para informar a pesar de su invalidez no despreciable en un estudio problemático (una clase en la que caen demasiados artículos publicados), uno podría minimizarlos implícitamente. Considere enfocar su narrativa en su lugar, tal vez incluso exclusivamente, en los tamaños de los efectos. Si su estudio es suficientemente representativo para ser útilmente informativo (esto no debería requerir un muestreo aleatorio perfecto, solo precaución en la generalidad de las interpretaciones), los tamaños de sus efectos deberían tener implicaciones más amplias que simplemente indicar la existencia y las direcciones de las relaciones o diferencias de todos modos. Centrar la discusión sobre los tamaños del efecto puede facilitar una comprensión más profunda de cuánto importan las relaciones o diferencias en un sentido práctico, aunque esto aún debe considerarse en el contexto del tema de estudio (por ejemplo, $r = .03$ $p$ $p$ $p$

Otra opción potencialmente complementaria sería ampliar su nota al pie. Tanto sus descripciones del problema como los revisores lo han experimentado, como la respuesta actualmente aceptada en esta página, sugieren que no se transmite suficiente información para explicar su motivación para incluir la nota al pie, ni suficiente para motivar al lector a seguir su cita a la referencia. que usas para explicarlo tan brevemente. Una sola oración adicional, incluso una breve cita de su referencia, podría explicar en gran medida el valor de su nota al pie y motivar a los lectores a leer más profundamente. Evidentemente, su nota de pie de página como antes motiva una reacción simple, negativa y despectiva hacia su intento discreto de interrumpir su complacencia sobre sus suposiciones inadecuadas. Los lectores pueden ser un poco menos perezosos intelectualmente si les da uno o dos de los puntos principales sobre los problemas que probablemente pasan por alto de forma rutinaria. Además, para muchos problemas particulares con $p$

$p$

$p$ $p$ ^{Goodman, 2001} $p$

Referencias

^{- Goodman, SN (1992). Un comentario sobre replicación, valores P y evidencia. Estadísticas en medicina, 11 (7), 875–879.

- Goodman, SN (2001). De los valores P y Bayes: una propuesta modesta. Epidemiología, 12 (3), 295–297. Recuperado de http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .

- Goodman, S. (2008). Una docena sucia: doce conceptos erróneos de valor P Seminarios en hematología, 45 (3), 135–140. Recuperado de http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .

- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M. y Greenberg, DA (2007). No replicación de los estudios de asociación: ¿"pseudo-fallas" para replicar? Genética en medicina, 9 (6), 325–331. Recuperado de http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .

- Hurlbert, SH y Lombardi, CM (2009). Colapso final del marco teórico de decisión de Neyman-Pearson y surgimiento del neofisheriano. Annales Zoologici Fennici, 46 (5), 311–349. Recuperado de http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .

- Lew, MJ (2013). Para P o no para P: Sobre la naturaleza evidencial de los valores P y su lugar en la inferencia científica. arXiv: 1311.0081 [stat.ME]. Recuperado dehttp://arxiv.org/abs/1311.0081 .

- Nuzzo, R. (12 de febrero de 2014). Método científico: errores estadísticos. Nature News, 506 .
- Wagenmakers, EJ (2007). Una solución práctica a los problemas generalizados de(7487). Recuperado de http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .

- Rosenthal, R., Rosnow, RL y Rubin, DB (2000). Contrastes y tamaños de efectos en la investigación conductual: un enfoque correlacional. Prensa de la Universidad de Cambridge.

- Senn, S. (2001). ¿Dos hurras por los valores P? Revista de Epidemiología y Bioestadística, 6 (2), 193–204. Recuperado de http://www.phil.vt.edu/dmayo/conference_2010/Senn%20Two%20Cheers%20Paper.pdf
valores de p . Psychonomic Bulletin & Review, 14 (5), 779–804. Recuperado de http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .}

— Nick Stauner
fuente

No todas las críticas a los valores P son correctas o justificadas, a pesar de su vehemencia. Debería ver estos dos documentos para algunos contrapuntos de los comentarios que cita: Dos hurras por los valores P (por Stephen Senn) phil.vt.edu/dmayo/conference_2010/… ; To P or Not To (por mí) arxiv.org/abs/1311.0081

— Michael Lew

Excelente punto! ¡Gracias! He editado un poco para incluir sus contribuciones, y puedo editar un poco más una vez que las entienda lo suficientemente bien como para incorporar sus implicaciones en el resto de lo que he dicho. Es por eso que amo Cross Validated ...

— Nick Stauner

¿Tiene alguna evidencia experimental a favor de su afirmación de que la suposición de Edwards se extiende a los valores p? Me encuentro extremadamente escéptico. Mi analogía es que he visto un par de artículos que demuestran que incluso los científicos de datos experimentados tienen problemas para estimar un coeficiente de correlación a partir de un diagrama de dispersión. Parece que está pidiendo mucho más a los científicos para tener una idea de lo que significa el valor p en términos de probabilidad. Su argumento a favor de las funciones de probabilidad es interesante ... tienden a parecerse un poco a las distribuciones posteriores, ¿no?

— russellpierce

@rpierce No tengo evidencia experimental para la comprensión de los usuarios de los métodos estadísticos. Sin embargo, afirmaría que al menos algunos de los estudios que se han realizado para ver si los científicos 'entienden' los valores de p son fatalmente defectuosos al no incluir entre las opciones una verdadera descripción evidentemente significativa del valor de p. Su analogía no es cercana porque el hecho de que los coeficientes de correlación no se estimen fácilmente no es el mismo problema que estimar la fuerza de la evidencia a partir de un valor p.

— Michael Lew

@rpierce La función de densidad de probabilidad posterior de un uniforme anterior será proporcional a la función de probabilidad.

— Michael Lew