¿Deberíamos abordar los ajustes de comparaciones múltiples al usar intervalos de confianza?

Supongamos que tenemos un escenario de comparaciones múltiples, como la inferencia post hoc en estadísticas por pares, o como una regresión múltiple, donde estamos haciendo un total de $m$ comparaciones. Supongamos también que nos gustaría apoyar la inferencia en estos múltiplos utilizando intervalos de confianza.

1. ¿Aplicamos múltiples ajustes de comparación a los IC? Es decir, al igual que las comparaciones múltiples obligan a una redefinición de $\alpha$ a la tasa de error familiar (FWER) o la tasa de descubrimiento falso (FDR), tiene el significado de confianza (o credibilidad ¹ , o incertidumbre, o predicción, o inferencial ... elija su intervalo) ¿se altera de manera similar por múltiples comparaciones? Me doy cuenta de que una respuesta negativa aquí discutirá mis preguntas restantes.

2. ¿Existen traducciones directas de múltiples procedimientos de ajuste de comparación desde la prueba de hipótesis hasta la estimación de intervalos? Por ejemplo, serían ajustes centrarse en cambiar el $\text{CI-level}$ plazo en el intervalo de confianza: $\text{CI}_{\theta} = (\hat{\theta} \pm t_{(1-\text{CI-level)/2}}\hat{\sigma}_{\theta})$ ?

3. ¿Cómo abordaríamos los procedimientos de control de aumento o reducción para CI? Algunos ajustes de la tasa de error familiar del enfoque de prueba de hipótesis para la inferencia son 'estáticos' en el sentido de que precisamente se hace el mismo ajuste para cada inferencia separada. Por ejemplo, el ajuste de Bonferroni se realiza modificando el criterio de rechazo de:

rechazar si $p\le \frac{\alpha}{2}$ a:
rechazar si $p\le \frac{\frac{\alpha}{2}}{m}$ ,

pero el ajuste de Holm-Bonferroni no es 'estático', sino que lo realiza:

primero ordenando los valores $p$ menor a mayor, y luego
rechazar si $p\le 1 - (1- \frac{\alpha}{2})^{\frac{1}{m+1-i}}$ , (donde $i$ índices El orden de los $p$ -valores) hasta
fallamos en rechazar una hipótesis nula, y automáticamente fallamos en rechazar todas las hipótesis nulas posteriores.

Debido a que el rechazo / no rechazo no está ocurriendo con los IC (más formalmente, consulte las referencias a continuación), ¿eso significa que los procedimientos por pasos no se traducen (es decir, que incluyen todos los métodos FDR)? Debería advertencia aquí que estoy no preguntando cómo traducir IC en las pruebas de hipótesis (los representantes de la literatura 'visual de hipótesis' se citan a continuación llegar a esa pregunta no es trivial).

4. ¿Qué pasa con cualquiera de esos otros intervalos que mencioné entre paréntesis en 1?

¹ Gosh, espero no tener problemas con esos estilos Bayesianos dulces y dulces al usar esta palabra aquí. :)

Referencias
Afshartous, D. y Preston, R. (2010). Intervalos de confianza para datos dependientes: equiparación de no solapamiento con significación estadística. Estadística computacional y análisis de datos , 54 (10): 2296–2305.

Cumming, G. (2009). Inferencia a simple vista: lectura de la superposición de intervalos de confianza independientes. Estadísticas en medicina , 28 (2): 205–220.

Payton, ME, Greenstone, MH y Schenker, N. (2003). Intervalos de confianza superpuestos o intervalos de error estándar: ¿Qué significan en términos de significación estadística? Journal of Insect Science , 3 (34): 1–6.

Tryon, WW y Lewis, C. (2008). Un método de intervalo de confianza inferencial para establecer la equivalencia estadística que corrige el factor de reducción de Tryon (2001). Métodos psicológicos , 13 (3): 272–277.

confidence-interval multiple-comparisons inference

— Alexis
fuente

No tengo tiempo para buscar una respuesta completa ahora, así que responderé en un comentario.

— Harvey Motulsky

[El último comentario se truncó. [No tengo tiempo para buscar una respuesta completa ahora, así que responderé en un comentario. 1) Sí, tiene sentido en las mismas situaciones que tienen sentido las comparaciones múltiples para la prueba de hipótesis. 2. Las comparaciones múltiples de Bonferroni, Tukey y Dunnet se pueden adaptar fácilmente para hacer intervalos de confianza donde el nivel de confianza se aplica a toda la familia. 3. Por lo que puedo decir, no hay posibilidad de hacer intervalos de confianza con el método Holm. 4. No tengo ni idea!

— Harvey Motulsky

p

$p$

α

$\alpha$

Respuestas:

Un excelente tema al que, lamentablemente, no se le presta suficiente atención.

Cuando se discuten múltiples parámetros e intervalos de confianza, se debe hacer una distinción entre inferencia simultánea e inferencia selectiva . Ref. [2] da una excelente demostración del asunto.

$1-\alpha$

Estos dos conceptos se pueden combinar: supongamos que construye intervalos solo en parámetros para los que rechazó la hipótesis nula. Claramente se trata de una inferencia selectiva. Es posible que desee garantizar una cobertura simultánea de los parámetros seleccionados o una cobertura marginal de los parámetros seleccionados. El primero sería la contraparte del control FWER, y el último del control FDR.

Ahora más importante: no todos los procedimientos de prueba tienen sus intervalos correspondientes. Para los procedimientos de FWER y los intervalos que los acompañan, consulte [3]. Lamentablemente, esta referencia está un poco desactualizada. Para la contraparte de intervalo del control BH FDR, consulte [1] y una aplicación en [4] (que también incluye una breve revisión del asunto). Tenga en cuenta que este es un campo de investigación fresco y activo para que pueda esperar más resultados en el futuro cercano.

[1] Benjamini, Y. y D. Yekutieli. "Intervalos de confianza múltiple ajustados a la tasa de descubrimiento falso para parámetros seleccionados". Revista de la Asociación Americana de Estadística 100, no. 469 (2005): 71–81.

[2] Cox, DR "Una observación sobre los métodos de comparación múltiple". Technometrics 7, no. 2 (1965): 223–24.

[3] Hochberg, Y. y AC Tamhane. Procedimientos de comparación múltiple. Nueva York, NY, EE. UU .: John Wiley & Sons, Inc., 1987.

[4] Rosenblatt, JD e Y. Benjamini. "Correlaciones selectivas; Not Voodoo ”. NeuroImage 103 (diciembre de 2014): 401–10.

— JohnRos
fuente

Yo nuncaajustar intervalos de confianza para múltiples pruebas. No soy un gran admirador de los valores p, porque creo que estimar los parámetros es un mejor uso de las estadísticas que probar hipótesis que nunca son exactamente ciertas. Sin embargo, reconozco que la prueba de hipótesis tiene su valor, por ejemplo, en un ensayo controlado aleatorio donde al menos uno puede argumentar que, asintóticamente, si un tratamiento no funciona, la hipótesis nula es cierta. Sin embargo, como he dicho en otra parte [1], generalmente esto implica tener un resultado primario. Sin embargo, los intervalos de confianza, en la definición frecuentista, no implican hipótesis y, por lo tanto, no necesitan ajustes para otras comparaciones potencialmente irrelevantes. Supongamos que estaba probando los fenotipos asociados con un gen en particular, como la altura y la presión arterial. YO' Me gustaría saber qué tan grande es la diferencia de altura entre aquellos con y sin el gen, y qué tan bien lo he estimado. No veo que el hecho de que también haya medido la presión arterial tenga algo que ver con eso. Donde podría importar es que si estos dos fueran los únicos significativos de cientos que probamos. Entonces es probable que las diferencias sean, por casualidad, mayores que los experimentos contrafactuales esperados donde solo medimos la altura y la presión arterial, pero lo hicimos cientos de experimentos. Sin embargo, en esas circunstancias, ningún ajuste simple funcionaría, y es mejor dar la estimación no ajustada, pero aclarar cómo obtuvo estas comparaciones. También hemos publicado algunos resultados sobre la superposición de intervalos de confianza. [2] No veo que el hecho de que también haya medido la presión arterial tenga algo que ver con eso. Donde podría importar es que si estos dos fueran los únicos significativos de cientos que probamos. Entonces es probable que las diferencias sean, por casualidad, mayores que los experimentos contrafactuales esperados donde solo medimos la altura y la presión arterial, pero lo hicimos cientos de experimentos. Sin embargo, en esas circunstancias, ningún ajuste simple funcionaría, y es mejor dar la estimación no ajustada, pero aclarar cómo obtuvo estas comparaciones. También hemos publicado algunos resultados sobre la superposición de intervalos de confianza. [2] No veo que el hecho de que también haya medido la presión arterial tenga algo que ver con eso. Donde podría importar es que si estos dos fueran los únicos significativos de cientos que probamos. Entonces es probable que las diferencias sean, por casualidad, mayores que los experimentos contrafactuales esperados donde solo medimos la altura y la presión arterial, pero lo hicimos cientos de experimentos. Sin embargo, en esas circunstancias, ningún ajuste simple funcionaría, y es mejor dar la estimación no ajustada, pero aclarar cómo obtuvo estas comparaciones. También hemos publicado algunos resultados sobre la superposición de intervalos de confianza. [2] más grande que los experimentos contrafactuales esperados donde solo medimos la altura y la presión arterial, pero lo hicimos cientos de experimentos. Sin embargo, en esas circunstancias, ningún ajuste simple funcionaría, y es mejor dar la estimación no ajustada, pero aclarar cómo obtuvo estas comparaciones. También hemos publicado algunos resultados sobre la superposición de intervalos de confianza. [2] más grande que los experimentos contrafactuales esperados donde solo medimos la altura y la presión arterial, pero lo hicimos cientos de experimentos. Sin embargo, en esas circunstancias, ningún ajuste simple funcionaría, y es mejor dar la estimación no ajustada, pero aclarar cómo obtuvo estas comparaciones. También hemos publicado algunos resultados sobre la superposición de intervalos de confianza. [2]

[1] Campbell MJ y Swinscow TDV (2009) Estadísticas en Square One. 11ª ed Oxford; Libros de BMJ Blackwell Publishing

[2] Julious SA, Campbell MJ, Walters SJ (2007) Predecir dónde se encontrarán los medios futuros según los resultados del ensayo actual. Ensayos clínicos contemporáneos, 28, 352-357.

— Mike Campbell
fuente

Gracias por la respuesta que invita a la reflexión, Mike. Benjamini, Hochberg y Yekutieli parecen argumentar que las comparaciones no son "irrelevantes", sino de hecho simultáneas: "También se necesita cobertura simultánea cuando se debe tomar una acción basada en el valor de todos los parámetros. Por lo tanto, comparar los puntos finales primarios entre dos Es probable que los tratamientos en un ensayo clínico impliquen la inspección de todos ellos, sean significativamente diferentes o no. Esta es una situación clara en la que se necesita cobertura simultánea ". (Dejando a un lado el tema de la presentación selectiva de solo algunos IC.)

— Alexis

Por cierto, dado que "no soy un gran admirador de los valores p, porque creo que estimar los parámetros es un mejor uso de la estadística que probar hipótesis que nunca son exactamente ciertas", podría disfrutar ¿Por qué las pruebas de hipótesis frecuentistas se vuelven parciales hacia el rechazo de los valores? hipótesis nula con muestras suficientemente grandes? . Aclamaciones.

— Alexis

Si bien estoy de acuerdo con usted en que los intervalos de confianza para los parámetros son superiores a los valores p para la mayoría de las formas de inferencia, no estoy seguro de si eso necesariamente implica que no es necesaria una corrección para las comparaciones múltiples con los intervalos de confianza. La mayoría de los intervalos de confianza se definen mediante el uso de alfa, para especificar la cobertura. Incluso divorciado del estricto marco de prueba de hipótesis, me parece (ingenuamente, sin molestarse en hacer simulaciones para verificar) que podría ser engañoso apegarse dogmáticamente a la cobertura nominal (por ejemplo, 95%, entonces alfa = 0.05) cuando se realizan comparaciones múltiples involucrado.

— Ryan Simmons

Mike Campbell dijo que "los intervalos de confianza, en la definición frecuentista, no involucran hipótesis y, por lo tanto, no necesitan ajustes para otras comparaciones potencialmente irrelevantes". Esa es una afirmación extraña. Aunque los IC pueden no reflejar "pruebas de hipótesis" per se, sí reflejan pruebas estadísticas que tienen una cierta tasa de error (p. Ej., .05), y esa tasa de error se infla a medida que aumenta el número de pruebas, exactamente el mismo matemático básico principio que se aplica a las pruebas de hipótesis nulas. Uno no escapa al problema de las comparaciones múltiples al enfocarse en los IC en lugar de los valores p.

— Bonferroni