¿Por qué se ve afectado el sesgo cuando se termina un ensayo clínico en una etapa temprana?


24

Un análisis intermedio es un análisis de los datos en uno o más puntos de tiempo antes del cierre oficial del estudio con la intención de, por ejemplo, posiblemente terminar el estudio antes de tiempo.

Según Piantadosi, S. ( Ensayos clínicos: una perspectiva metodológica ): " La estimación de un efecto del tratamiento estará sesgada cuando un ensayo finalice en una etapa temprana. Cuanto antes sea la decisión, mayor será el sesgo " .

¿Me puede explicar esta afirmación? Puedo entender fácilmente que la precisión se verá afectada, pero la afirmación sobre el sesgo no es obvia para mí ...


Creo que esta es una pregunta perfecto para "dar cuerpo a" las diferencias entre la metodología bayesiana y Frequentist
probabilityislogic

Respuestas:


13

En primer lugar, debe tener en cuenta el contexto: esto solo se aplica cuando el ensayo se detuvo antes de tiempo debido a un monitoreo intermedio que muestra eficacia / futilidad, no por alguna razón externa aleatoria. En ese caso, la estimación del tamaño del efecto estará sesgada en un sentido completamente estadístico. Si se detuvo por eficacia, el efecto estimado será demasiado alto (suponiendo que sea positivo), si se detuvo por inutilidad, será demasiado bajo.

Piantodosi también da una explicación intuitiva (Sección 10.5.4 en mi edición). Supongamos que la verdadera diferencia en dos medias es 1 unidad. Cuando ejecuta muchas pruebas y las mira en su tiempo de análisis intermedio, algunas de ellas habrán observado tamaños de efectos muy superiores a 1, algunos muy inferiores a uno y la mayoría alrededor de 1: la distribución será amplia, pero simétrica. El tamaño del efecto estimado en este punto no sería muy preciso, pero sería imparcial. Sin embargo, solo se detiene e informa un tamaño del efecto si la diferencia es significativa (ajustada para múltiples pruebas), es decir, la estimación está en el lado alto. En todos los demás casos, continúe y no informe una estimación. Eso significa que condicional a haber parado temprano, la distribución del tamaño del efecto no es simétrica y su valor esperado está por encima del valor verdadero de la estimación.

El hecho de que este efecto es más severo desde el principio proviene del obstáculo más grande para detener el ensayo, por lo que una gran parte de la distribución se desecha durante el acondicionamiento.


1
Al principio pensé esto también, pero cuando me senté para probarlo, no pude: solo pude demostrar que la estimación resultante en realidad es imparcial. (Nueva intuición: el sesgo positivo de una parada condicional equilibra un sesgo negativo de llevar el experimento hasta su finalización). Entonces: ¿puede presentar una demostración más rigurosa?
whuber

@whuber Voy a tratar de escribirlo, pero el punto es que la declaración de Piantodosi es sólo sobre lo que sucede cuando se hace parada antes. No hay finalización para equilibrarlo.
Aniko

2
@whuber Sí, eso es lo que dice la declaración original también. Su argumento de que habrá un sesgo opuesto condicional al completar el estudio también es válido. El mensaje completo debería ser que una vez que comience a realizar la supervisión provisional, comienzan a suceder cosas divertidas para su capacidad de estimar el tamaño del efecto.
Aniko

3
@Aniko Debería ser posible ajustar el sesgo cuando se produce la terminación anticipada. Por lo tanto, parece que estamos discutiendo el uso ingenuo de un estimador estándar, destinado a muestras aleatorias de tamaño fijo, en experimentos terminados condicionalmente, donde dichos estimadores no tienen sus propiedades deseadas. (+1, por cierto.)
whuber

2
@whuber Claro, puedes ajustarte a este sesgo, pero primero debes reconocer que existe. Y luego tiene que venderle al investigador que, aunque claramente 5 de cada 10 pacientes respondieron, la tasa de respuesta estimada es del 40% (números inventados) después de ajustar el sesgo debido a la interrupción temprana.
Aniko

3

Aquí hay una ilustración de cómo puede surgir un sesgo en las conclusiones y por qué puede no ser la historia completa. Suponga que tiene una prueba secuencial de un medicamento que se espera que tenga un efecto positivo (+1) pero que puede tener un efecto negativo (-1). Se prueban cinco cobayos uno tras otro. La probabilidad desconocida de un resultado positivo en un solo caso es de hecho y un resultado negativo . 134 414 4

Entonces, después de cinco ensayos, las probabilidades de los diferentes resultados son

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    405/1024
+3-2 = +1    270/1024
+2-3 = -1     90/1024
+1-4 = -3     15/1024
+0-5 = -5      1/1024

entonces la probabilidad de un resultado positivo en general es 918/1024 = 0.896, y el resultado promedio es +2.5. Dividido por los 5 ensayos, este es un promedio de un resultado de +0.5 por ensayo.

Es la figura imparcial, ya que también es .+1×34 4-1×14 4

Suponga que para proteger a los conejillos de indias, el estudio finalizará si en cualquier etapa el resultado acumulativo es negativo. Entonces las probabilidades se vuelven

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    324/1024
+3-2 = +1    135/1024
+2-3 = -1     18/1024
+1-2 = -1     48/1024
+0-1 = -1    256/1024

entonces la probabilidad de un resultado positivo en general es 702/1024 = 0.6855, y el resultado promedio es +1.953. Si observamos el valor medio del resultado por ensayo en el cálculo anterior, es decir, usando , , , , y entonces obtendríamos +0.184. +3+5 55 5 +1+35 5 -1+15 5 -1-15 5 -1-13-11

Estos son los sentidos en los que existe un sesgo al detenerse temprano en el segundo esquema, y ​​el sesgo está en la dirección prevista. Pero no es la historia completa.

¿Por qué Whuber y Probabilityislogic piensan que parar temprano debería producir resultados imparciales? Sabemos que el resultado esperado de los ensayos en el segundo esquema es +1,953. El número esperado de ensayos resulta ser 3.906. Al dividir uno por el otro obtenemos +0.5, exactamente como antes y lo que se describió como imparcial.


estás tomando la perspectiva del mundo "pre-data". Lo que usted dice es cierto, que la regla de detención es importante, pero solo antes de considerar los datos . Esto se debe a que la regla de detención proporciona información sobre los datos, pero no sobre las probabilidades reales. Entonces, una vez que los datos están ingresados, la regla de detención ya no importa. Tenga en cuenta que las verdaderas probabilidades son desconocidas en el experimento real. Por lo tanto, también debe considerar situaciones en las que las probabilidades son, digamos y , así como cualquier otra combinación posible. P(-)=3PAGS(+)=14 4PAGS(-)=34 4
probabilidadislogic

Así que tomo su ejemplo como que indica que . ¡Esto es ciertamente cierto! Sin embargo, mi respuesta también condicionaEsto se debe a que, si me dice la regla de detención, pero no si realmente se detuvo, puedo resolver esto a partir del conjunto de datos que realmente tengo. De hecho, puedo averiguar si alguna regla de detención se habría detenido una vez que conozca los datos. DP(H|S,I)P(H|I)re
chanceislogic

1

Bueno, mis conocimientos sobre esta proviene de la oración Harveian en 2008 http://bookshop.rcplondon.ac.uk/details.aspx?e=262 En esencia, a lo mejor de mis recuerdos de los resultados se hará con preferencia como 1) detener temprana generalmente significa que el tratamiento fue más o menos efectivo de lo que se esperaba, y si esto es positivo, entonces puede estar aprovechando la oportunidad. Creo que los valores de p se calculan sobre la base del tamaño de muestra planificado (pero podría estar equivocado en esto), y también si está constantemente verificando sus resultados para ver si se han mostrado efectos, debe corregir las comparaciones múltiples para asegurarse de que no solo está encontrando un efecto casual. Por ejemplo, si verifica 20 veces los valores de p por debajo de .05, estadísticamente hablando, es casi seguro que encontrará un resultado significativo.


PARTE 1 Antes que nada, gracias por tu respuesta. De hecho, los métodos frecuentistas son correctos para pruebas múltiples. Por lo tanto, el problema de la estimación del efecto del tratamiento sesgado no puede venir de allí. En un análisis intermedio, la prueba se basa en la información actual, utilizando el tamaño de muestra actual, no el tamaño de muestra global planificado. Entonces el problema tampoco viene de allí.
ocram

PARTE 2 Estoy de acuerdo en que parar temprano puede significar que el tratamiento es "más efectivo de lo que se esperaba". En ese sentido, el efecto estimado del tratamiento sería mayor de lo esperado. Pero, según yo, esto no lo hace sesgado ... En cambio, según mí, en cierto sentido, "nuestra esperanza fue sesgada".
ocram

1

No estaría de acuerdo con esa afirmación, a menos que por "sesgo" Piantadosi signifique esa parte de la precisión que comúnmente se llama sesgo. La inferencia no estará "sesgada" porque elegiste detenerte per se: estará "sesgada" porque tienes menos datos. El llamado "principio de probabilidad" establece que la inferencia solo debe depender de los datos que se observaron, y no de los datos que podrían haberse observado, pero no lo fueron. El LP dice

PAGS(HEl |re,S,yo)=PAGS(HEl |re,yo)

HreSyoreyoS=sol(re,yo)UNAUNA=UNAS=sol(re,yo)reyore,S,yo=re,sol(re,yo),yo=re,yoreyo que importa


@probabilityislogic: ¡Gracias! Si lo entiendo bien, "sesgo" no debe tomarse en un sentido estadístico. Creo que esto tiene sentido porque Piantadosi habla sobre el "sesgo" de una estimación y no de un estimador ...
ocram

mi(μ-μ^)2=vunar(μ^)+siyounas(μ^)μμ^es el "estimador". Si el segundo término (el sesgo) depende del tamaño de la muestra, entonces esperaría que parar temprano aumentaría el sesgo, porque ha disminuido el tamaño de la muestra, en relación con si el experimento continuó. Pero por lo que dices, parece que "sesgo" debe interpretarse como "error" desde la perspectiva de Piantadosi.
chanceislogic

1
Este argumento no dice nada sobre el sesgo, solo el aspecto de prueba de hipótesis del problema, que nadie cuestiona.
Aniko

@Prob Tengo que estar de acuerdo con @Aniko: es obvio que cuando el valor nulo es verdadero, existe una probabilidad positiva de terminación anticipada, en cuyo caso la estimación del efecto será distinta de cero. Por lo tanto, la expectativa del efecto estimado, condicional en la terminación temprana, es positiva, mientras que la expectativa incondicional es cero. (Observe que el OP está abordando la estimación , no la prueba de hipótesis.)
whuber

Hμ(una,una+reuna)SreyoSSSreyoμ
probabilidadislogica

0

no se haya sesgo (en "sentido estadístico") si la terminación de los estudios no es al azar.

En un conjunto de experimentos concluidos, los resultados "iniciales" de (a) algunos experimentos que finalmente encuentran "sin efecto" mostrarán algún efecto (como resultado del azar) y (b) algunos experimentos que finalmente encuentran un el efecto mostrará "sin efecto" (probablemente como resultado de la falta de potencia). En un mundo en el que finaliza los ensayos, si detiene (a) con más frecuencia que (b), terminará en una serie de estudios con sesgo a favor de encontrar un efecto. (Se aplica la misma lógica para los tamaños de los efectos ; la finalización de los estudios que muestran un efecto "mayor de lo esperado" más temprano que los que muestran "como se esperaba o menor" aumentará el recuento de hallazgos de "gran efecto").

Si, de hecho, los ensayos médicos finalizan cuando los resultados tempranos muestran un efecto positivo, a fin de poner el tratamiento a disposición de los sujetos con placebo u otros, pero no cuando los resultados iniciales no son concluyentes, habrá más error tipo 1 en dichas pruebas que habría si todos los experimentos se realizaran a la conclusión. Pero eso no significa que la práctica esté mal; El costo del error tipo 1, moralmente hablando, podría ser más bajo que negar el tratamiento tan rápido como lo haría para tratamientos que realmente demostrarían que funcionan al final del ensayo completo.


Vea mi comentario a la respuesta de Aniko, porque le haría la misma pregunta: ¿puede proporcionar una demostración más rigurosa?
whuber

Me remito a Aniko, él hace un mejor trabajo que yo. Pero si está de acuerdo en que el "efecto de cajón de escritorio" da como resultado un sesgo, la lógica aquí es idéntica. Hay un sesgo a favor de los datos que respaldan la hipótesis: en el primer caso b / c no se informan los datos que no respaldan, en el último b / c no se recopila necesariamente una fracción de los datos no respaldados: finalización del ensayo temprano cuando los resultados se ven bien excluye esa parte de la distribución de "malos resultados" poblada por ensayos que producirán sus malos resultados tarde . Tal vez este sesgo se puede ajustar, pero hay un sesgo que necesita un ajuste.
dmk38

@dmk Solo estoy tratando de alentarlos a ambos a tener un debate con @Probability, con quien parece estar en total desacuerdo ;-).
whuber

1
PAGS(reEl |H,S,yo)

1
@probabilidad Esa es una forma de verlo. Otra es esquivar la hipótesis por completo y abordar la pregunta que realmente se hace; a saber, ¿cuál es el tamaño del efecto del tratamiento ? Desde este punto de vista, la terminación puede ocurrir una vez que se conoce la estimación con suficiente precisión para respaldar la toma de decisiones. Por ejemplo, es posible que deseemos tener una gran confianza en que la ganancia en salud de la prescripción del tratamiento probablemente exceda los costos (y los efectos secundarios) del tratamiento.
whuber
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.