Comprender Gelman y Carlin "Más allá de los cálculos de potencia: ..." (2014)

Estoy leyendo Gelman y Carlin "Más allá de los cálculos de potencia: evaluación de errores tipo S (signo) y tipo M (magnitud)" (2014). Estoy tratando de entender la idea principal, la idea principal, pero estoy confundido. ¿Podría alguien ayudarme a destilarme la esencia?

El papel va más o menos así (si lo entendí correctamente).

Los estudios estadísticos en psicología a menudo están plagados de pequeñas muestras.
Condicional a un resultado estadísticamente significativo en un estudio dado,
(1) es probable que el tamaño real del efecto se sobreestime severamente y
(2) el signo del efecto puede ser opuesto con alta probabilidad, a menos que el tamaño de la muestra sea lo suficientemente grande.
Lo anterior se muestra usando una suposición previa del tamaño del efecto en la población, y ese efecto generalmente se considera pequeño.

Mi primer problema es, ¿por qué condicionar el resultado estadísticamente significativo? ¿Es para reflejar el sesgo de publicación? Pero ese no parece ser el caso. Entonces, ¿por qué?

Mi segundo problema es, si hago un estudio yo mismo, ¿debería tratar mis resultados de manera diferente a lo que estoy acostumbrado (hago estadísticas frecuentes, no estoy muy familiarizado con Bayesian)? Por ejemplo, tomaría una muestra de datos, estimaría un modelo y registraría una estimación puntual para obtener algún efecto de interés y un límite de confianza a su alrededor. ¿Debo desconfiar ahora de mi resultado? ¿O debería desconfiar si es estadísticamente significativo? ¿Cómo cualquier cambio previo dado eso?

¿Cuál es la conclusión principal (1) para un "productor" de investigación estadística y (2) para un lector de documentos estadísticos aplicados?

Referencias

Gelman, Andrew y John Carlin. "Más allá de los cálculos de potencia: evaluación de los errores tipo S (signo) y tipo M (magnitud)". Perspectives on Psychological Science 9.6 (2014): 641-651.

PD: Creo que el nuevo elemento para mí aquí es la inclusión de información previa, que no estoy seguro de cómo tratar (proveniente del paradigma frecuentista).

— Richard Hardy
fuente

Como puede ver, estoy bastante confundido, por lo que mis preguntas pueden no parecer coherentes o sensatas. Apreciaré cualquier pista para darle más sentido al trabajo que estoy estudiando. Espero poder plantear preguntas más sensatas a medida que avance mi comprensión del tema.

— Richard Hardy

Tenga en cuenta que establecen la premisa del documento desde el principio: " Acaba de terminar de realizar un experimento. Analiza los resultados y encuentra un efecto significativo . ¡Éxito! Pero espere, ¿cuánta información le proporciona realmente su estudio? "¿Cuánto debe confiar en sus resultados? " --- están describiendo lo que sucede / lo que implica cuando tiene importancia. Utilizan esas consecuencias para motivar el enfoque en otras cosas además de la importancia.

— Glen_b -Reinstale a Monica el

Debe desconfiar de su resultado, sí, si ejecuta múltiples pruebas de significación y filtra todas las que resultan insignificantes; esto es una especie de "sesgo de publicación", pero puede ocurrir sin ninguna publicación, simplemente dentro del laboratorio de una persona en el transcurso de varios meses o años de experimentos. Todo el mundo hace algo así hasta cierto punto, de ahí el interés pedagógico por condicionar los resultados significativos.

— ameba dice Reinstate Monica

@amoeba, OK, pero si (hipotéticamente) calculo solo un modelo y me concentro en un solo parámetro preespecificado (por lo que no hay pruebas múltiples), ¿cambiaría algo el resultado de Gelman y Carlin? ¿Qué tal si incluimos la información previa?

— Richard Hardy

Se necesita información previa para evaluar la tasa de descubrimiento falso; La lógica habitual de las pruebas de significación solo garantiza la tasa de error tipo I P (signif | nulo). Para estimar P (null | signif) necesita invocar algunos antes. Eso es lo que están haciendo Gelman y Carlin aquí. Si solo estima un modelo, entonces la "tasa de descubrimiento falso" no tiene sentido (en el enfoque frecuentista); pero generalmente las personas estiman muchos modelos :-) o al menos leen literatura que consiste en otras personas que estiman muchos modelos.

— ameba dice Reinstate Monica

Respuestas:

Releyé el periódico y esta vez parece mucho más claro. Ahora también los útiles comentarios de @Glen_b y @amoeba tienen mucho sentido.

Toda la discusión se basa en un punto de partida en el que se ha obtenido un resultado estadísticamente significativo. Condicional a eso, tenemos el tamaño del efecto estimado distribuido de manera diferente de lo que estaría ausente el condicionamiento: El documento parece apuntar a dos problemas:

P_{\hat{β}} (\cdot | \hat{β} is statistically significant) \neq P_{\hat{β}} (\cdot) .

$P_{\hat\beta}(\cdot|\hat\beta \text{ is statistically significant})\neq P_{\hat\beta}(\cdot).$

Sesgo de publicación (solo se publican resultados estadísticamente significativos) y
Sesgo en los cálculos de diseño para nuevos estudios (tomando como referencia los tamaños de efectos esperados demasiado grandes).

La buena noticia es que ambos problemas pueden abordarse de manera satisfactoria.

Dado un tamaño de efecto esperado plausible , un tamaño de efecto estimado (suponiendo que se publicó porque era estadísticamente significativo, mientras que de lo contrario no se habría publicado), un error estándar estimado y la familia de distribución (p. ej. Normal o de Student ) del estimador, podemos dar marcha atrás a la distribución incondicional del tamaño del efecto . $\beta^{plausible}$ $\hat\beta$ $s.e.(\hat\beta)$ $t$ $P_{\hat\beta}(\cdot)$
Utilizando hallazgos previos, con la ayuda de 1. un tamaño de efecto plausible se puede determinar y utilizar en el diseño del estudio. $\beta^{plausible}$

Para responder brevemente mis propias dos preguntas:

Se trata del sesgo de publicación, aunque no en un sentido de dragado de datos, sino en el contexto de estudios de baja potencia; allí es probable que un resultado estadísticamente significativo pertenezca al, por ejemplo, rechazos del 5% bajo el valor nulo (por lo tanto, el valor nulo es realmente cierto pero terminamos lejos de él por casualidad) en lugar de un rechazo bajo la alternativa (donde el nulo no es cierto y el resultado es "genuino").
Debería ser cauteloso al rechazar el valor nulo, porque el resultado estadísticamente significativo probablemente se deba a la posibilidad (aunque la posibilidad se limita, por ejemplo, al 5%) en lugar de debido a un efecto "genuino" (debido a la baja potencia) .

— Richard Hardy
fuente

Esta respuesta de Glen_b también es muy útil.

— Richard Hardy

No sé si realmente hay algo que no sea redundante, pero también escribí una respuesta a esa pregunta que podría ser útil. Un punto: creo que no necesariamente abogan por estimar la distribución "verdadera" del tamaño del efecto usando (llamado en el documento) sino más bien usándolo para estimar la probabilidad de haber hecho un Tipo S o Error tipo M basado en los resultados de su prueba actual. Es bayesiano, pero en mi humilde opinión "Bayesian-lite";) porque todavía lo estás utilizando para interpretar los resultados de una prueba frecuentista.

β^{p l a u s i b l e}

$\beta^{plausible}$

D

$D$

— Patrick B.

@PatrickB., Gracias. Voy a echar un vistazo un poco más tarde. (Veo que ya había votado esa respuesta tuya antes; eso significa que ya la había encontrado útil.)

— Richard Hardy

Richard, he desarrollado una función R para estimar el error tipo "S" y tipo "M" para un caso más general de tamaños de efectos, no lo que Gelman muestra bajo la distribución normal. Al leer el documento, hay un proceso de recuperación simple de un hallazgo anterior y estadísticamente significativo. Pero todo el proceso se basa completamente en un análisis de poder. En esencia, para pequeños estudios ruidosos, el SE es grande y al suponer varios tamaños de efectos plausibles verificables empíricamente, puede obtener resultados razonables ...

— rnorouzian

... estima lo que debe incluir un estudio futuro en términos de, por ejemplo, el tamaño de la muestra necesaria para evitar obtener altas tasas de Tipo "S" y alta tasa de exageración (es decir, Tipo "M"). Para los registros, el tipo "S" de Gelman es simplemente esa pieza bajo la distribución del tamaño del efecto subyacente que se encuentra en el lado opuesto del efecto subyacente dividido por el poder. De todos modos, mire la función en caso de que pueda ayudar.

— rnorouzian

Hay otro ángulo de este documento que puede ser útil si ya está aplicando un análisis bayesiano y no le importa la parte de significación estadística.

Suponga que es el CDF posterior de la cantidad (tamaño del efecto) que le interesa estimar. En la situación bayesiana, tomando un poco de libertad con la notación y cambiando para hablar sobre las funciones de densidad de probabilidad, tendrá una función de probabilidad basada en alguna cantidad observable , y en un previo puro de : $P$ $\beta$ $V$ $\beta$

p (β | V) \sim p (V | β) p (β)

$p(\beta | V) \sim p(V | \beta)p(\beta)$

Aquí es probable que sea una cantidad vectorial, en el caso más simple es un vector de múltiples observaciones independientes a partir de las cuales surge el producto habitual de términos de probabilidad, que se convierte en una suma de términos logarítmicos, etc. La longitud de ese vector sería un parametrización del tamaño de la muestra. En otros modelos, digamos donde es Poisson, podría acumularse en el parámetro Poisson, que también expresa una parametrización del tamaño de la muestra. $V$ $V$ $p(V | \beta)$

Ahora suponga que hace una hipótesis basada en la revisión de literatura u otros medios. Puede utilizar su supuesto proceso de generación de datos con para generar simulaciones de , que representan qué datos vería si su modelo está bien especificado y es el verdadero tamaño del efecto. $\beta^{plausible}$ $P(V | \beta)$ $\beta = \beta^{plausible}$ $V$ $\beta^{plausible}$

Entonces puedes hacer algo estúpido: da la vuelta y actúa como si esa muestra de la información observada, y extrae un montón de muestras de de la parte posterior general. A partir de estas muestras, puede calcular las estadísticas como se menciona en el documento. $V$ $\beta$

Las cantidades del papel vinculado, el error tipo S y la relación de exageración ya representan casi lo mismo. Para ese tamaño de efecto, dadas las opciones de su modelo, le indicarán para un parámetro dado de tamaño de muestra elegido para , cuál es la probabilidad posterior del signo incorrecto y cuál será la relación esperada (en el posterior) entre el tamaño del efecto producido por el modelo y el tamaño de efecto plausible asumido, ya que varía cualquier aspecto de relacionado con el tamaño de la muestra. $V$ $V$

La parte más difícil es interpretar el "poder" posterior como la probabilidad posterior de que el valor estimado de sea al menos tan grande como el valor hipotético . Esta no es una medida de capacidad para rechazar la hipótesis nula, ya que el tamaño de esta probabilidad no se usaría como una medida de significación en el sentido frecuentista. $\beta$ $\beta^{plausible}$

Realmente no sé cómo llamarlo, excepto para decir que he tenido varias aplicaciones en la práctica en las que es una métrica muy útil para razonar sobre el diseño del estudio. Básicamente, le ofrece una forma de ver cuántos datos necesita proporcionar (suponiendo que sus datos se generen perfectamente a partir de un proceso que utiliza ) para una suposición particular sobre la probabilidad y las formas anteriores para dar como resultado un "suficientemente alto" probabilidad posterior de un efecto de cierto tamaño. $\beta^{plausible}$

Donde esto ha sido más útil para mí en la práctica es en situaciones en las que el mismo modelo general necesita aplicarse repetidamente a diferentes conjuntos de datos, pero donde los matices entre los conjuntos de datos podrían justificar el cambio de la distribución previa o el uso de un subconjunto diferente de revisión de literatura para decida cuál es una opción pragmática de , y luego obtenga un diagnóstico aproximado sobre si estos ajustes para diferentes conjuntos de datos darían como resultado un caso en el que necesitará muchos más datos para tener una probabilidad no trivial en la parte posterior concentrado en la parte derecha de la distribución. $\beta^{plausible}$

Debe tener cuidado de que nadie haga un mal uso de esta métrica de "poder" como si fuera lo mismo que un cálculo de poder frecuentista, lo cual es bastante difícil. Pero todas estas métricas son bastante útiles para el análisis de diseño prospectivo y retrospectivo, incluso cuando todo el procedimiento de modelado es bayesiano y no se refiere a ningún resultado de significación estadística.

— ely
fuente