La utilidad de los tamaños de los efectos en relación con los valores p (así como otras métricas de inferencia estadística) se debate habitualmente en mi campo, la psicología, y el debate es actualmente "más candente" de lo normal por razones que son relevantes para su pregunta. Y aunque estoy seguro de que la psicología no es necesariamente el campo científico estadísticamente más sofisticado, ha discutido, estudiado, y en ocasiones demostrado, las limitaciones de varios enfoques de inferencia estadística, o al menos cómo están limitadas por el uso humano. Las respuestas ya publicadas incluyen buenas ideas, pero en caso de que esté interesado en una lista más extensa (y referencias) de razones a favor y en contra de cada una, consulte a continuación.
¿Por qué los valores p no son deseables?
- Como observa Darren James (y muestra su simulación), los valores p dependen en gran medida de la cantidad de observaciones que tenga (ver Kirk, 2003)
- Como señala Jon, los valores p representan la probabilidad condicional de observar datos como extremos o más extremos dado que la hipótesis nula es verdadera. Como la mayoría de los investigadores preferirían tener probabilidades de la hipótesis de investigación, y / o la hipótesis nula, los valores p no hablan de las probabilidades en las que los investigadores están más interesados (es decir, de la hipótesis nula o de investigación, ver Dienes, 2008)
- Muchos de los que usan valores p no entienden lo que significan / no significan (Schmidt y Hunter, 1997). La referencia de Michael Lew al artículo de Gelman y Stern (2006) subraya aún más los malentendidos de los investigadores sobre lo que uno puede (o no puede) interpretar a partir de los valores p. Y como lodemuestrauna historia relativamente reciente en FiveThirtyEight , este sigue siendo el caso.
- Los valores p no son buenos para predecir valores p posteriores (Cumming, 2008)
- Los valores p a menudo se informan erróneamente (más a menudo inflan la importancia), y el informe erróneo está relacionado con la falta de voluntad para compartir datos (Bakker & Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011)
- Los valores p pueden ser (e históricamente, han sido) distorsionados activamente a través de la flexibilidad analítica y, por lo tanto, no son confiables (John et al., 2012; Simmons et al., 2011)
- Los valores p son desproporcionadamente significativos, ya que los sistemas académicos parecen recompensar a los científicos por la significación estadística sobre la precisión científica (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)
¿Por qué son deseables los tamaños de efecto?
Tenga en cuenta que estoy interpretando que su pregunta se refiere específicamente a tamaños de efectos estandarizados, ya que usted dice que permiten a los investigadores transformar sus hallazgos "EN UNA métrica COMÚN".
- Como indican Jon y Darren James, los tamaños de los efectos indican la magnitud de un efecto, independientemente del número de observaciones (American Psychological Association 2010; Cumming, 2014) en lugar de tomar decisiones dicotómicas de si un efecto está ahí o no.
- Los tamaños de los efectos son valiosos porque hacen posibles los metanálisis y el metanálisis impulsa el conocimiento acumulativo (Borenstein et al., 2009; Chan y Arvey, 2012)
- Los tamaños del efecto ayudan a facilitar la planificación del tamaño de la muestra a través del análisis de poder a priori y, por lo tanto, la asignación eficiente de recursos en la investigación (Cohen, 1992)
¿Por qué son deseables los valores p?
Aunque se adoptan con menos frecuencia, los valores p tienen una serie de ventajas. Algunos son conocidos y de larga data, mientras que otros son relativamente nuevos.
Los valores P proporcionan un índice conveniente y familiar de la fuerza de la evidencia contra la hipótesis nula del modelo estadístico.
Cuando se calculan correctamente, los valores p proporcionan un medio para tomar decisiones dicotómicas (que a veces son necesarias), y los valores p ayudan a mantener las tasas de error falso positivo a largo plazo en un nivel aceptable (Dienes, 2008; Sakaluk, 2016) [ No es estrictamente correcto decir que los valores P son necesarios para las decisiones dicotómicas. De hecho, se usan ampliamente de esa manera, pero Neyman & Pearson usaron 'regiones críticas' en el espacio de estadísticas de prueba para ese propósito. Ver esta pregunta y sus respuestas]
- Los valores p se pueden utilizar para facilitar una planificación del tamaño de la muestra continuamente eficiente (no solo un análisis de potencia de una sola vez) (Lakens, 2014)
- Los valores p se pueden utilizar para facilitar el metanálisis y evaluar el valor probatorio (Simonsohn et al., 2014a; Simonsohn et al., 2014b). Vea esta publicación de blog para una discusión accesible de cómo las distribuciones de valores p se pueden usar de esta manera, así como esta publicación de CV para una discusión relacionada.
- Los valores p se pueden usar de manera forense para determinar si se han utilizado prácticas de investigación cuestionables y qué tan replicables podrían ser los resultados (Schimmack, 2014; ver también la aplicación de Schönbrodt, 2015)
¿Por qué los tamaños del efecto son indeseables (o sobrevalorados)?
Quizás la posición más contraintuitiva para muchos; ¿Por qué los informes de tamaños de efectos estandarizados serían indeseables o, como mínimo, sobrevalorados?
- En algunos casos, los tamaños de efectos estandarizados no son todo lo que están hechos para ser (por ejemplo, Groenlandia, Schlesselman y Criqui, 1986). Baguely (2009), en particular, tiene una buena descripción de algunas de las razones por las cuales los tamaños de efectos brutos / no estandarizados pueden ser más deseables.
- A pesar de su utilidad para el análisis de potencia a priori, los tamaños de los efectos no se usan de manera confiable para facilitar una planificación eficiente del tamaño de la muestra (Maxwell, 2004)
- Incluso cuando los tamaños de los efectos se utilizan en la planificación del tamaño de la muestra, porque se inflan a través del sesgo de publicación (Rosenthal, 1979) los tamaños de los efectos publicados son de utilidad cuestionable para una planificación confiable del tamaño de la muestra (Simonsohn, 2013)
- Las estimaciones del tamaño del efecto pueden ser, y han sido, mal calculadas sistémicamente en el software estadístico (Levine y Hullet, 2002)
- Los tamaños del efecto se extraen por error (y probablemente se informan erróneamente), lo que socava la credibilidad de los metanálisis (Gøtzsche et al., 2007)
- Por último, corregir el sesgo de publicación en los tamaños del efecto sigue siendo ineficaz (ver Carter et al., 2017), lo que, si cree que existe sesgo de publicación, hace que los metanálisis sean menos impactantes.
Resumen
Haciéndose eco de la observación hecha por Michael Lew, los valores p y los tamaños del efecto son solo dos piezas de evidencia estadística; Hay otros que vale la pena considerar también. Pero al igual que los valores p y los tamaños de los efectos, otras métricas de valor probatorio también han compartido problemas únicos. Los investigadores comúnmente aplican mal y malinterpretan los intervalos de confianza (por ejemplo, Hoekstra et al., 2014; Morey et al., 2016), por ejemplo, y el resultado de los análisis bayesianos puede distorsionarse por los investigadores, al igual que cuando se usan valores p (por ejemplo, Simonsohn , 2014).
Todas las métricas de evidencia han ganado y todas deben tener premios.
Referencias
Asociacion Americana de Psicologia. (2010) Manual de publicación de la Asociación Americana de Psicología (6ª edición). Washington, DC: Asociación Americana de Psicología.
Baguley, T. (2009). Tamaño del efecto estandarizado o simple: ¿Qué se debe informar? British Journal of Psychology, 100 (3), 603-617.
Bakker, M. y Wicherts, JM (2011). El (mal) informe de resultados estadísticos en revistas de psicología. Métodos de investigación del comportamiento, 43 (3), 666-678.
Borenstein, M., Hedges, LV, Higgins, J. y Rothstein, HR (2009). Introducción al metanálisis. West Sussex, Reino Unido: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM y Hilgard, J. (12 de agosto de 2017). Corrección de sesgos en psicología: una comparación de los métodos metaanalíticos. Recuperado de osf.io/preprints/psyarxiv/9h3nu
Chan, ME y Arvey, RD (2012). Metaanálisis y desarrollo del conocimiento. Perspectivas sobre la ciencia psicológica, 7 (1), 79-92.
Cohen, J. (1992). Una cartilla de poder. Boletín psicológico, 112 (1), 155-159.
Cumming, G. (2008). Replicación e intervalos p: los valores p predicen el futuro solo vagamente, pero los intervalos de confianza son mucho mejores. Perspectivas sobre la ciencia psicológica, 3, 286–300.
Dienes, D. (2008). Entender la psicología como ciencia: una introducción a la inferencia científica y estadística. Nueva York, NY: Palgrave MacMillan.
Fanelli, D. (2010). Los resultados "positivos" aumentan en la jerarquía de las ciencias. PloS one, 5 (4), e10068.
Gelman, A. y Stern, H. (2006). La diferencia entre "significativo" y "no significativo" no es estadísticamente significativa en sí misma. El estadístico estadounidense, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K. y Tendal, B. (2007). Errores de extracción de datos en metanálisis que utilizan diferencias de medias estandarizadas. JAMA, 298 (4), 430-437.
Groenlandia, S., Schlesselman, JJ y Criqui, MH (1986). La falacia de emplear coeficientes de regresión estandarizados y correlaciones como medidas de efecto. American Journal of Epidemiology, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN y Wagenmakers, EJ (2014). Mala interpretación robusta de los intervalos de confianza. Boletín y revisión psiconómica, 21 (5), 1157-1164.
John, LK, Loewenstein, G. y Prelec, D. (2012). Medición de la prevalencia de prácticas de investigación cuestionables con incentivos para decir la verdad. PsychologicalSscience, 23 (5), 524-532.
Kirk, RE (2003). La importancia de la magnitud del efecto. En SF Davis (Ed.), Manual de métodos de investigación en psicología experimental (págs. 83-105). Malden, MA: Blackwell.
Lakens, D. (2014). Realizar estudios de alta potencia de manera eficiente con análisis secuenciales. European Journal of Social Psychology, 44 (7), 701-710.
Levine, TR y Hullett, CR (2002). Eta al cuadrado, parcial al cuadrado y mal informe del tamaño del efecto en la investigación de la comunicación. Human Communication Research, 28 (4), 612-625.
Maxwell, SE (2004). La persistencia de estudios de baja potencia en investigación psicológica: causas, consecuencias y remedios. Métodos psicológicos, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD y Wagenmakers, EJ (2016). La falacia de poner confianza en los intervalos de confianza. Boletín y revisión psiconómica, 23 (1), 103-123.
Nosek, BA, Spies, JR y Motyl, M. (2012). Utopía científica: II. Reestructuración de incentivos y prácticas para promover la verdad sobre la publicabilidad. Perspectives on Psychological Science, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S. y Wicherts, JM (2016). La prevalencia de errores de informes estadísticos en psicología (1985-2013). Métodos de investigación del comportamiento, 48 (4), 1205-1226.
Rosenthal, R. (1979). El problema del cajón de archivos y la tolerancia para resultados nulos. Boletín psicológico, 86 (3), 638-641.
Sakaluk, JK (2016). Exploración pequeña, confirmación grande: un sistema alternativo a las nuevas estadísticas para avanzar en la investigación psicológica acumulativa y replicable. Revista de Psicología Social Experimental, 66, 47-54.
Schimmack, U. (2014). Cuantificación de la integridad de la investigación estadística: el índice de replicabilidad. Recuperado de http://www.r-index.org
Schmidt, FL y Hunter, JE (1997). Ocho objeciones comunes pero falsas a la interrupción de las pruebas de significación en el análisis de datos de investigación En LL Harlow, SA Mulaik y JH Steiger (Eds.), ¿Qué pasaría si no hubiera pruebas de significación? (págs. 37-64). Mahwah, Nueva Jersey: Erlbaum.
Schönbrodt, FD (2015). p-checker: analizador de valor p para todos. Recuperado de http://shinyapps.org/apps/p-checker/ .
Simmons, JP, Nelson, LD y Simonsohn, U. (2011). Psicología falsa positiva: la flexibilidad no revelada en la recopilación y análisis de datos permite presentar cualquier cosa como significativa. Ciencia psicológica, 22 (11), 1359-1366.
Simonsohn, U. (2013). La insensatez de potenciar las réplicas en función del tamaño del efecto observado. Recuperado de http://datacolada.org/4
Simonsohn, U. (2014). Hackeo posterior. Recuperado de http://datacolada.org/13 .
Simonsohn, U., Nelson, LD y Simmons, JP (2014). Curva P: una clave para el cajón de archivos. Revista de psicología experimental: general, 143 (2), 534-547.
Simonsohn, U., Nelson, LD y Simmons, JP (2014). Curva P y tamaño del efecto: corrección del sesgo de publicación utilizando solo resultados significativos. Perspectives on Psychological Science, 9 (6), 666-681.
Wicherts, JM, Bakker, M. y Molenaar, D. (2011). La disposición a compartir datos de investigación está relacionada con la solidez de la evidencia y la calidad del informe de resultados estadísticos. PloS one, 6 (11), e26828.