¿Referencias que contienen argumentos contra pruebas de significancia de hipótesis nulas?

En los últimos años, he leído varios artículos que argumentan en contra del uso de pruebas de significación de hipótesis nulas en la ciencia, pero no pensé en mantener una lista persistente. Un colega me pidió recientemente una lista así, así que pensé en pedirles a todos los presentes que la ayuden a construirla. Para empezar, esto es lo que tengo hasta ahora:

Johansson (2011) "Salve lo imposible: valores p, evidencia y probabilidad".
Haller y Kraus (2002) "Interpretación errónea de la importancia: un problema que los estudiantes comparten con sus maestros".
Wagenmakers (2007) "Una solución práctica al problema generalizado de los valores p".
Rodgers (2010) "La epistemología del modelado matemático y estadístico: una revolución metodológica silenciosa".
Dixon (1998) "Por qué los científicos valoran los valores p".
Glover y Dixon (2004) "Razones de probabilidad: una estadística simple y flexible para psicólogos empíricos".

— Mike Lawrence
fuente

No es 100% relevante, por lo que no publicaré esto como respuesta. Pero, JPA Ioannidis, Por qué la mayoría de los resultados de investigación publicados son falsos , vale la pena leer PLoS Med 2 (8): e124, 2005.

— cardenal

Un libro famoso entre los economistas es Ziliak, Stephen T. y Deirdre Nansen Mccloskey. El culto a la significación estadística: cómo el error estándar nos cuesta trabajos, justicia y vidas. University of Michigan Press, 2008.

— Waldemar

¿Cuál es el objetivo aquí?

— Aksakal

En marzo de 2016, la ASA emitió una "Declaración sobre valores p" oficial .

— Kenny LJ

En esta página se enumeran muchas referencias (incluidos los comentarios): lesswrong.com/lw/g13/against_nhst . Más referencias en la respuesta de Glen_b aquí: stats.stackexchange.com/questions/142533 .

— ameba dice Reinstate Monica

Chris Fraley ha enseñado un curso completo sobre la historia del debate (el enlace parece estar roto, aunque todavía está en su sitio oficial; aquí hay una copia en Internet Archive ). Su resumen / conclusión está aquí (nuevamente, copia archivada ). Según la página de inicio de Fraley, la última vez que enseñó este curso fue en 2003.

Prefiere esta lista con un "sesgo del instructor":

Aunque mi objetivo es facilitar discusiones vivas, profundas y justas sobre los temas en cuestión, creo que es necesario hacer explícito mi sesgo desde el principio. Paul Meehl dijo una vez que "Sir Ronald [Fisher] nos ha confundido, hipnotizado y guiado por el camino de la primavera. Creo que la dependencia casi universal de simplemente refutar la hipótesis nula como el método estándar para corroborar las teorías sustantivas en el mundo blando. es un error terrible, es básicamente una estrategia científica poco acertada, deficiente y una de las peores cosas que ha sucedido en la historia de la psicología ". Me hago eco del sentimiento de Meehl. Uno de mis objetivos en este seminario es dejar en claro por qué creo que este es el caso. Además, te espero, para cuando hayas completado este seminario,

Copiaré en la lista de lectura en caso de que la página del curso desaparezca:

Semana 1. Introducción: ¿Qué es una prueba de significación de hipótesis nula? Hechos, mitos y el estado de nuestra ciencia

Lyken, DL (1991). ¿Qué le pasa a la psicología? En D. Cicchetti y WM Grove (eds.), Thinking Clearly about Psychology, vol. 1: Asuntos de interés público, Ensayos en honor de Paul E. Meehl (pp. 3 - 39). Minneapolis, MN: University of Minnesota Press.

Semana 2. Críticas tempranas de NHST

Meehl, PE (1967). Pruebas de teoría en psicología y física: una paradoja metodológica. Filosofía de la ciencia, 34, 103-115.

Meehl, PE (1978). Riesgos teóricos y asteriscos tabulares: Sir Karl, Sir Ronald y el lento progreso de la psicología blanda. Revista de consultoría y psicología clínica, 46, 806-834.

Rozeboom, WW (1960). La falacia de la prueba de significación de hipótesis nula. Boletín psicológico, 57, 416-428.

Bakan, D. (1966). La prueba de significación en la investigación psicológica. Boletín psicológico, 66, 423-437. [Opcional]

Semana 3. Críticas contemporáneas de NHST

Cohen, J. (1994). La tierra es redonda (p <.05). Psicólogo estadounidense, 49, 997-1003.

Gigerenzer, G. (1993). El superyó, el ego y la identificación en el razonamiento estadístico. En G. Keren y C. Lewis (Eds.), Un manual para el análisis de datos en las ciencias del comportamiento: cuestiones metodológicas (pp. 311-339). Hillsdale, Nueva Jersey: Lawrence Erlbaum Associates.

Schmidt, FL y Hunter, JE (1997). Ocho objeciones comunes pero falsas a la interrupción de las pruebas de significación en el análisis de los datos de investigación. En Lisa A. Harlow, Stanley A. Mulaik y James H. Steiger (Eds.) ¿Qué pasaría si no hubiera pruebas de significación? (págs. 37-64). Mahwah, NJ: Lawrence Erlbaum Associates.

Oakes, M. (1986). Inferencia estadística: un comentario para las ciencias sociales y del comportamiento. Nueva York: Wiley. (Capítulo 2 [Una crítica de las pruebas de significación]) [opcional]

Semana 4. Refutación: los defensores de NHST vienen en su defensa

Frick, RW (1996). El uso apropiado de la prueba de hipótesis nula. Métodos psicológicos, 1, 379-390.

Hagen, RL (1997). Elogio de la prueba estadística de hipótesis nula. Psicólogo estadounidense, 52, 15-24.

Wilkinson, L., y el Grupo de trabajo sobre inferencia estadística. (1999) Métodos estadísticos en revistas de psicología: directrices y explicaciones. Psicólogo estadounidense, 54, 594-604.

Wainer, H. (1999). Un aplauso para la prueba de significación de hipótesis nula. Métodos psicológicos, 6, 212-213.

Mulaik, SA, Raju, NS y Harshman, RA (1997). Hay un momento y lugar para las pruebas de significación. En Lisa A. Harlow, Stanley A. Mulaik y James H. Steiger, Eds. ¿Qué pasa si no hubiera pruebas de significación? (págs. 65-116). Mahwah, NJ: Lawrence Erlbaum Associates. [Opcional]

Semana 5. Refutación: los defensores de NHST vienen en su defensa

Abelson, RP (1997). Sobre la sorprendente longevidad de los caballos azotados: por qué hay un caso para la prueba de significación. Ciencia psicológica, 8, 12-15.

Krueger, J. (2001). Prueba de significación de hipótesis nulas: sobre la supervivencia de un método defectuoso. Psicólogo estadounidense, 56, 16-26.

Scarr, S. (1997). Reglas de evidencia: un contexto más amplio para el debate estadístico. Ciencia psicológica, 8, 16-17.

Greenwald, AG, González, R., Harris, RJ y Guthrie, D. (1996). Tamaños de efectos y valores de p: ¿Qué se debe informar y qué se debe replicar? Psicofisiología, 33, 175-183.

Nickerson, RS (2000). Prueba de significación de hipótesis nulas: una revisión de una vieja y continua controversia. Métodos psicológicos, 5, 241-301. [Opcional]

Harris, RJ (1997). Las pruebas de importancia tienen su lugar. Ciencia psicológica, 8, 8-11. [Opcional]

Semana 6. Tamaño del efecto

Rosenthal, R. (1984). Procedimientos metaanalíticos para la investigación social. Beverly Hills, CA: Sabio. [Ch. 2, Definición de resultados de la investigación]

Chow, SL (1988). Prueba de significación o tamaño del efecto? Boletín psicológico, 103, 105-110.

Abelson, RP (1985). Una paradoja de explicación de varianza: cuando un poco es mucho. Boletín psicológico, 97, 129-133. [Opcional]

Semana 7. Poder estadístico

Hallahan, M. y Rosenthal, R. (1996). Poder estadístico: conceptos, procedimientos y aplicaciones. Behavior Research and Therapy, 34, 489-499.

Sedlmeier, P. y Gigerenzer, G. (1989). ¿Los estudios de poder estadístico tienen un efecto sobre el poder de los estudios? Boletín psicológico, 105, 309-316.

Cohen, J. (1962). El poder estadístico de la investigación psicológica anormal-social: una revisión. Revista de psicología anormal y social, 65, 145-153. [Opcional]

Maddock, JE, Rossi, JS (2001). Poder estadístico de los artículos publicados en tres revistas relacionadas con la psicología de la salud. Psicología de la salud, 20, 76-78. [Opcional]

Thomas, L. y Juanes, F. (1996). La importancia del análisis de poder estadístico: un ejemplo de Animal Behavior. Comportamiento animal, 52, 856-859. [Opcional]

Rossi, JS (1990). Poder estadístico de la investigación psicológica: ¿Qué hemos ganado en 20 años? Revista de consultoría y psicología clínica, 58, 646-656. [Opcional]

Tukey, JW (1969). Análisis de datos: ¿Santificación o trabajo de detective? Psicólogo estadounidense, 24, 83-91. [Opcional]

Semana 8. Intervalos de confianza y pruebas de significación

Gardner, MJ y DG Altman. 1986. Intervalos de confianza en lugar de valores de P: estimación en lugar de prueba de hipótesis. British Medical Journal, 292, 746-750.

Cumming, G. y Finch, S. (2001). Una introducción a la comprensión, el uso y el cálculo de los intervalos de confianza que se basan en distribuciones centrales y no centrales. Medición educativa y psicológica, 61, 532-574.

Loftus, GR y Masson, MEJ (1994). Uso de intervalos de confianza en diseños dentro del tema. Psychonomic Bulletin and Review, 1, 476-490.

Semana 9 [nota: nos estamos saltando esta sección]. Modelado teórico: desarrollo de modelos formales de fenómenos naturales

Haefner, JW (1996). Modelado de sistemas biológicos: principios y aplicaciones. Nueva York: International Thomson Publishing. (Capítulos 1 [Modelos de sistemas] y 2 [El proceso de modelado])

Loehlin, JC (1992). Modelos variables latentes: una introducción al factor, la ruta y el análisis estructural. Hillsdale, Nueva Jersey: Lawrence Erlbaum Associates. (Capítulo 1 [Modelos de ruta en factor, ruta y análisis estructural], p. 1-18]

Grant, DA (1962). Prueba de la hipótesis nula y la estrategia de investigación de modelos teóricos. Revisión psicológica, 69, 54-61. [Opcional]

Binder, A. (1963). Otras consideraciones sobre la prueba de la hipótesis nula y la estrategia y tácticas de investigación de modelos teóricos. Revisión psicológica, 70, 107-115. [Opcional]

Edwards, W. (1965). Nota táctica sobre las relaciones entre hipótesis científicas y estadísticas. Boletín psicológico, 63, 400-402. [Opcional]

Semana 10. ¿Cuál es el significado de probabilidad? Controversia sobre la frecuencia relativa y la probabilidad subjetiva

Salsburg, D. (2001). La dama degustando té: cómo las estadísticas revolucionaron la ciencia en el siglo XX. Nueva York: WH Freeman. (Capítulos 10, 11 y 12)

Oakes, M. (1986). Inferencia estadística: un comentario para las ciencias sociales y del comportamiento. Nueva York: Wiley. (Capítulos 4, 5 y 6)

Pruzek, RM (1997). Una introducción a la inferencia bayesiana y sus aplicaciones. En Lisa A. Harlow, Stanley A. Mulaik y James H. Steiger, Eds. ¿Qué pasa si no hubiera pruebas de significación? (págs. 287-318). Mahwah, NJ: Lawrence Erlbaum Associates.

Rindskoph, DM (1997). Prueba de hipótesis "pequeña", no nula: enfoques clásicos y bayesianos. En Lisa A. Harlow, Stanley A. Mulaik y James H. Steiger (Eds). ¿Qué pasa si no hubiera pruebas de significación? (págs. 319-332). Mahwah, NJ: Lawrence Erlbaum Associates.

Edwards, W., Lindman, H., Savage, LJ (1963). Inferencia estadística bayesiana para la investigación psicológica. Revisión psicológica, 70, 193-242. [Opcional]

Semana 11. Evaluación de la teoría: filosofía de la ciencia y prueba y modificación de teorías

Meehl, PE (1990). Teorías de evaluación y modificación: la estrategia de defensa lakatosiana y dos principios que lo justifican. Consulta psicológica, 1, 108-141.

Roberts, S. y Pashler, H. (2000). ¿Qué tan persuasivo es un buen ajuste? Un comentario sobre las pruebas teóricas. Revisión psicológica, 107, 358-367.

Semana 12. Evaluación de la teoría: filosofía de la ciencia y prueba y modificación de teorías

Urbach, P. (1974). Progreso y degeneración en el "debate sobre el cociente intelectual" (I). British Journal of Philosophy of Science, 25, 99-125.

Serlin, RC y Lapsley, DK (1985). Racionalidad en la investigación psicológica: el principio suficientemente bueno. Psicólogo estadounidense, 40, 73-83.

Dar, R. (1987). Otra mirada a Meehl, Lakatos y las prácticas científicas de los psicólogos. Psicólogo estadounidense, 42, 145-151.

Gholson, B. y Barker, P. (1985). Kuhn, Lakatos y Laudan: aplicaciones en la historia de la física y la psicología. Psicólogo estadounidense, 40, 755-769. [Opcional]

Faust, D. y Meehl, PE (1992). Uso de métodos científicos para resolver preguntas en la historia y la filosofía de la ciencia: algunas ilustraciones. Terapia de comportamiento, 23, 195-211. [Opcional]

Urbach, P. (1974). Progreso y degeneración en el "debate sobre el cociente intelectual" (II). British Journal of Philosophy of Science, 25, 235-259. [Opcional]

Salmon, WC (1973, mayo). Confirmación. Scientific American, 228, 75-83. [Opcional]

Meehl, PE (1993). Filosofía de la ciencia: ¿ayuda u obstáculo? Informes psicológicos, 72, 707-733. [opcional] Manicas. PT, y Secord, PF (1983). Implicaciones para la psicología de la nueva filosofía de la ciencia. Psicólogo estadounidense, 38, 399-413. [Opcional]

Semana 13. ¿La tradición del NHST ha socavado una base de conocimiento acumulativa y no sesgada en psicología?

Cooper, H., DeNeve, K. y Charlton, K. (1997). Encontrar la ciencia que falta: el destino de los estudios presentados para su revisión por un comité de sujetos humanos. Métodos psicológicos, 2, 447-452.

Schmidt, FL (1996). Pruebas de significación estadística y conocimiento acumulativo en psicología: implicaciones para la formación de investigadores. Métodos psicológicos, 1, 115-129.

Greenwald, AG (1975). Consecuencias del prejuicio contra la hipótesis nula. Boletín psicológico, 82, 1-20.

Berger, JO y Berry, DA (1988). Análisis estadístico e ilusión de objetividad. Científico estadounidense, 76, 159-165.

Semana 14. Replicación e Integridad Científica

Smith, Carolina del Norte (1970). Estudios de replicación: un aspecto descuidado de la investigación psicológica. Psicólogo estadounidense, 25, 970-975.

Sohn, D. (1998). Importancia estadística y replicabilidad: por qué la primera no presagia la segunda. Teoría y Psicología, 8, 291-311.

Meehl, PE (1990). Por qué los resúmenes de investigación sobre teorías psicológicas a menudo son ininterpretables. Psychological Reports, 66, 195-244.

Platt, JR (1964). Fuerte inferencia. Science, 146, 347-353.

Feynman, RL (1997). ¡Seguramente estás bromeando, Sr. Feynman! Nueva York: WW Norton. (Capítulo: Ciencia de culto de carga).

Rorer, LG (1991). Algunos mitos de la ciencia en psicología. En D. Cicchetti y WM Grove (eds.), Thinking Clearly about Psychology, vol. 1: Asuntos de interés público, Ensayos en honor de Paul E. Meehl (págs. 61 - 87). Minneapolis, MN: University of Minnesota Press. [Opcional]

Lindsay, RM y Ehrenberg, ASC (1993). El diseño de estudios replicados. El estadístico estadounidense, 47, 217-228. [Opcional]

Semana 15. Pensamiento cuantitativo: por qué necesitamos matemáticas (y no NHST per se) en ciencia psicológica

Aiken, LS, West, SG, Sechrest, L. y Reno, RR (1990). Formación de posgrado en estadística, metodología y medición en psicología: una encuesta de Ph.D. programas en América del Norte. Psicólogo estadounidense, 45, 721-734.

Meehl, PE (1998, mayo). El poder del pensamiento cuantitativo. Discurso invitado como ganador del Premio James McKeen Cattell en la reunión anual de la American Psychological Society, Washington, DC.

— Michael Bishop
fuente

+1. Es interesante, y bastante revelador, que las lecturas comienzan y terminan con Meehl.

— Whuber

Has hecho un verdadero servicio al compartir esto.

— rolando2

Los enlaces al curso y al resumen parecen estar rotos. Puede encontrar la información en el proyecto Archivo: web.archive.org/web/20151023151618/http://www.uic.edu/classes/…

— AG

Estas son excelentes referencias. Tengo un folleto quizás útil en http://biostat.mc.vanderbilt.edu/wiki/pub/Main/FHHandouts/whyBayesian.pdf

— Frank Harrell
fuente

402 citas que cuestionan el uso indiscriminado de pruebas de significación de hipótesis nulas en estudios observacionales: http://warnercnr.colostate.edu/~anderson/thompson1.html

— Alex
fuente