¿Cómo se debe controlar las diferencias grupales e individuales en las puntuaciones previas al tratamiento en un ensayo controlado aleatorio?

Andrew Gelman, en el libro que escribió con Jennifer Hill, declara en el Capítulo 9 (sección 9.3), en la página 177:

Solo es apropiado controlar los predictores previos al tratamiento o, más generalmente, los predictores que no se verían afectados por el tratamiento (como la raza o la edad). Este punto se ilustrará más concretamente en la Sección 9.7 ...

Y allí (9.7 se titula "no controlar las variables posteriores al tratamiento") analiza el problema de medir las variables mediadoras, en lugar del problema del cambio previo y posterior directamente.

Es importante decir aquí que creo que Gelman / Hill es un texto brillante ... Y disfruto mucho entenderlo. Sin embargo, esto despertó mi interés, ya que me recuerda el enfoque de Everitt & Pickles sobre el mismo problema.

Everitt es de la opinión de que usar un puntaje de cambio (puntaje B - puntaje A) tenderá a sesgar sus hallazgos a favor del tratamiento, mientras que incluir puntajes de referencia en el modelo es más conservador. Respaldan esto con una simulación: es bastante persuasivo.

Hasta aquí he entendido que lo que está controlando son las diferencias grupales en los puntajes iniciales que pueden causar que el efecto aparente del tratamiento sea mayor de lo que es, o que exista, cuando no es así. También entiendo que esto se debe a que la regresión a la media está funcionando, por lo que las puntuaciones iniciales más altas se asociarán con mayores disminuciones y viceversa, independientemente del efecto del tratamiento.

Everitt está enérgicamente en contra de los "puntajes de cambio", y Gelman parece desaconsejar la inclusión de puntajes de referencia en el modelo.

Sin embargo, Gelman demuestra esto en las próximas 2-3 páginas, incluidas las puntuaciones previas a la prueba como predictor. Él da la advertencia de que luego obtienes un rango de efectos de tratamiento plausibles que están condicionados a la puntuación previa a la prueba, no un rango de efectos de tratamiento que represente meramente incertidumbre en los efectos.

Mi opinión es que el uso de "puntajes de cambio" parece no estar realmente haciendo nada acerca de la regresión a la media, mientras que incluir el puntaje de referencia como predictor permite cancelar las diferencias de grupo de referencia , esencialmente introduciendo una estructura de covarianza.

Soy médico y tengo que tomar decisiones reales sobre qué tratamientos funcionan. ¿Entonces qué debo hacer? ¿Incluir los puntajes de referencia de cada persona o usar "cambiar puntajes"?

clinical-trials

— rosser
fuente

Por supuesto, lo que realmente haría es modelarlo en ambos sentidos

— 2011

{Estoy haciendo trampa, agregando un comentario demasiado largo para el cuadro de comentarios.} Gracias por su explicación. Parece que has encontrado algunas fuentes excelentes y has hecho mucho para extraer buenas lecciones de ellas. Hay otras fuentes que vale la pena leer, por ejemplo, un capítulo en Cuasi Experimentación de Cook y Campbell; una sección en Geoffrey Keppel's Design and Analysis; y creo que al menos un artículo de Donald Rubin. También ofreceré una lección que he recogido (parafraseado) del trabajo de Damian Betebenner sobre los resultados de los exámenes de los estudiantes:

¿Es razonable esperar que no se produzca ninguna mejora sin una determinada intervención? Si es así, tiene sentido analizar los puntajes de ganancia, como con el análisis de varianza. ¿Es razonable pensar que todos los estudiantes mejorarían hasta cierto punto, incluso sin la intervención, y que su puntaje posterior a la prueba podría predecirse como una función lineal de su puntaje previo a la prueba? Si es así, el análisis de covarianza tendría sentido.

de ANOVA / ANCOVA Flow Chart

Además, tal vez lo sepa, pero la Paradoja de Lord, mencionada por Betebenner, implica la posibilidad de obtener, con los mismos datos, un resultado de diferencia media cero usando uno de estos dos métodos, pero una diferencia significativa usando el otro.

Mi opinión, basada en lecturas quizás más limitadas que la suya, es que ambos métodos tienen un lugar y que Everitt y quizás también Gelman, por muy buenos que sean, en este caso están tomando una línea demasiado dura.

— rolando2
fuente