La mejor práctica al analizar diseños de control de tratamiento pre y post


53

Imagine el siguiente diseño común:

  • 100 participantes son asignados aleatoriamente a un grupo de tratamiento o control
  • la variable dependiente es numérica y medida antes y después del tratamiento

Tres opciones obvias para analizar tales datos son:

  • Probar el efecto de interacción grupal por tiempo en ANOVA mixto
  • Realice un ANCOVA con condición como IV y la medida previa como covariable y medida posterior como DV
  • Haga una prueba t con la condición de IV y los puntajes de cambio pre-post como DV

Pregunta:

  • ¿Cuál es la mejor manera de analizar dichos datos?
  • ¿Hay razones para preferir un enfoque sobre otro?

1
Cuando dices "condición", ¿te refieres a la asignación de grupo?
pmgjones

1
@propofol: sí. disculpas si mi lenguaje no es claro.
Jeromy Anglim

1
También hay métodos paramétricos "N-de-1" para evaluar estadísticamente datos temporales para observaciones individuales. Aplicación de ejemplo: ncbi.nlm.nih.gov/pubmed/2039432 Métodos comparativos: europepmc.org/abstract/MED/10557859/…
user31256

Respuestas:


34

Hay una gran literatura sobre este tema (puntajes de cambio / ganancia), y creo que las mejores referencias provienen del dominio biomédico, por ejemplo

Senn, S (2007). Cuestiones estadísticas en el desarrollo de fármacos . Wiley (cap. 7 págs. 96-112)

En la investigación biomédica, también se ha realizado un trabajo interesante en el estudio de ensayos cruzados (especialmente en relación con los efectos de arrastre , aunque no sé cuán aplicable es a su estudio).

Desde Gain Score t hasta ANCOVA F (y viceversa) , de Knapp & Schaffer, proporciona una revisión interesante del enfoque ANCOVA vs. t (la llamada paradoja del Señor). El análisis simple de las puntuaciones de cambio no es la forma recomendada para el diseño previo / posterior de acuerdo con Senn en su artículo Cambio desde la línea de base y el análisis de covarianza revisitado (Stat. Med. 2006 25 (24)). Además, usar un modelo de efectos mixtos (por ejemplo, para tener en cuenta la correlación entre los dos puntos de tiempo) no es mejor porque realmente necesita usar la medición "pre" como una covariable para aumentar la precisión (a través del ajuste). Muy corto:

  • El uso de puntajes de cambio (post pre o resultado línea de base) no resuelve el problema del desequilibrio; la correlación entre la medición pre y post es <1, y la correlación entre pre y (post pre) es generalmente negativa: se deduce que si el tratamiento (su asignación grupal) medido por los puntajes brutos resulta ser una desventaja injusta en comparación para controlar, tendrá una ventaja injusta con los puntajes de cambio.- -
  • La varianza del estimador utilizado en ANCOVA es generalmente menor que la de los puntajes brutos o de cambio (a menos que la correlación entre pre y post sea igual a 1).
  • Si las relaciones pre / post difieren entre los dos grupos (pendiente), no es un problema tan grande como para cualquier otro método (el enfoque de las puntuaciones de cambio también supone que la relación es idéntica entre los dos grupos, la hipótesis de la pendiente paralela )
  • Bajo la hipótesis nula de igualdad de tratamiento (en el resultado), no se espera interacción tratamiento x línea de base; es peligroso ajustar un modelo de este tipo, pero en este caso uno debe usar líneas de base centradas (de lo contrario, el efecto del tratamiento se estima en el origen covariable).

También me gustan los diez mitos de puntuación de diferencias de Edwards, aunque se centra en las puntuaciones de diferencia en un contexto diferente; pero aquí hay una bibliografía anotada sobre el análisis del cambio previo y posterior (desafortunadamente, no cubre trabajos muy recientes). Van Breukelen también comparó ANOVA versus ANCOVA en un entorno aleatorio y no aleatorio, y sus conclusiones respaldan la idea de que ANCOVA es preferible, al menos en estudios aleatorios (que evitan la regresión al efecto medio).


Solo para aclarar: ¿quiere decir que el ANCOVA con puntajes pre-prueba como covariables es la mejor opción?
mkt - Restablece a Monica el

17

Daniel B. Wright analiza esto en la sección 5 de su artículo Hacer amigos con sus datos . Él sugiere (p.130):

El único procedimiento que siempre es correcto en esta situación es un diagrama de dispersión que compara las puntuaciones en el tiempo 2 con las del tiempo 1 para los diferentes grupos. En la mayoría de los casos, debe analizar los datos de varias maneras. Si los enfoques dan resultados diferentes ... piense más detenidamente sobre el modelo implicado por cada uno.

Recomienda los siguientes artículos como lecturas adicionales:

  • Mano, DJ (1994). Deconstruyendo preguntas estadísticas. Revista de la Royal Statistical Society: A, 157, 317–356.
  • Señor, FM (1967). Una paradoja en la interpretación de las comparaciones grupales. Boletín psicológico, 72, 304-305. PDF gratis
  • Wainer, H. (1991). Ajuste por tasas base diferenciales: la paradoja de Lord nuevamente. Boletín psicológico, 109, 147-151. PDF gratis

9

Las estrategias más comunes serían:

  1. ANOVA de medidas repetidas con un factor dentro del sujeto (pre versus post-prueba) y un factor entre sujetos (tratamiento versus control).
  2. ANCOVA en las puntuaciones posteriores al tratamiento, con la puntuación previa al tratamiento como una covariable y el tratamiento como una variable independiente. Intuitivamente, la idea es que una prueba de las diferencias entre ambos grupos es realmente lo que busca e incluir los puntajes previos a la prueba como una covariable puede aumentar la potencia en comparación con una prueba t simple o ANOVA.

Hay muchas discusiones sobre la interpretación, los supuestos y las diferencias aparentemente paradójicas entre estos dos enfoques y sobre alternativas más sofisticadas (especialmente cuando los participantes no pueden ser asignados al azar al tratamiento), pero creo que siguen siendo bastante estándar.

Una fuente importante de confusión es que para el ANOVA, el efecto de interés es muy probablemente la interacción entre el tiempo y el tratamiento y no el efecto principal del tratamiento. Por cierto, la prueba F para este término de interacción arrojará exactamente el mismo resultado que una prueba t de muestra independiente en puntajes de ganancia (es decir, puntajes obtenidos restando el puntaje previo al examen del puntaje posterior a la prueba para cada participante) para que pueda También ve por eso.

Si todo esto es demasiado, no tiene tiempo para resolverlo, y no puede obtener ayuda de un estadístico, un enfoque rápido y sucio pero de ninguna manera completamente absurdo sería simplemente comparar los puntajes posteriores a la prueba con un prueba t de muestra independiente, ignorando los valores previos a la prueba. Esto solo tiene sentido si los participantes fueron asignados aleatoriamente al grupo de tratamiento o control .

Finalmente, esa no es en sí misma una buena razón para elegirlo, pero sospecho que el enfoque 2 anterior (ANCOVA) es lo que actualmente pasa por el enfoque correcto en psicología, por lo que si elige otra cosa, es posible que tenga que explicar la técnica en detalle o justificar usted mismo a alguien que está convencido, por ejemplo, que "se sabe que las puntuaciones de ganancia son malas".


1
Yo diría que la primera recomendación, ANOVA de medidas repetidas, no es apropiada para analizar datos previos y posteriores. ¿El tratamiento está codificado a 0 en el grupo de intervención al inicio del estudio? De cualquier manera, esto reintroduce el efecto Hawthorne. Las diferencias sistemáticas en pre / post entre los controles se reducen a una variación aleatoria. El RM AN C OVA se justifica cuando hay múltiples mediciones durante un período posterior, y los valores de referencia todavía se ajustan como una covariable o se utilizan como una puntuación de ganancia.
AdamO

2

ANCOVA y medidas repetidas / modelo mixto para término de interacción están probando dos hipótesis diferentes. Consulte este artículo: artículo 1 y este artículo: artículo 2


-2

Dado que tiene dos medios (ya sea de un artículo específico o de la suma del inventario), no hay razón para considerar un ANOVA. Una prueba t pareada es probablemente apropiada; Esto puede ayudarlo a elegir qué prueba t necesita.

¿Desea ver los resultados específicos del elemento o las puntuaciones generales? Si desea hacer un análisis de elementos, este podría ser un punto de partida útil.


44
¿Qué pasa con el grupo de control? Una prueba t pareada en todos los datos parece una mala idea y ciertamente no aborda la pregunta principal (¿es efectivo el tratamiento?). Una prueba t pareada restringida al grupo de tratamiento es una estrategia plausible, pero ignorar al grupo de control arroja muchos datos y genera pruebas mucho más débiles de que la intervención es de hecho el ingrediente activo. ANOVA es, de hecho, una forma común, aunque a menudo criticada, de analizar este diseño.
Gala
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.