Para responder a su pregunta literal, "¿Es válido incluir una medida de referencia como variable de control cuando se prueba el efecto de una variable independiente en los puntajes de cambio?", La respuesta es no . La respuesta es no, porque por construcción el puntaje de referencia se correlaciona con el término de error cuando el puntaje de cambio se usa como la variable dependiente, por lo tanto, el efecto estimado de la línea de base sobre el puntaje de cambio no se puede interpretar.
Utilizando
- como el peso inicialY1
- como peso finalY2
- como el cambio de peso (es decir, Δ Y = Y 2 - Y 1 )Δ YΔ Y= Y2- Y1
- como untratamientoasignado al azar, yT
- como otros factores exógenos que afectan el peso (por ejemplo, otras variables de control que están relacionadas con el resultado pero que no deberían estar correlacionadas con el tratamiento debido a la asignación aleatoria)X
Uno tiene un modelo que regresa en T y X ;Δ YTX
Δ Y= β1T+ β2X+ e
Que por definición es equivalente a;
Y2- Y1= β1T+ β2X+ e
Ahora, si se incluye la línea de base como covariable, uno debe ver a un problema, ya que usted tiene la plazo en ambos lados de la ecuación. Esto muestra que β 3 Y 1 no se puede interpretar, porque está inherentemente correlacionado con el término de error.Y1β3Y1
Y2- Y1Y2= β1T+ β2X+ β3Y1+ e= β1T+ β2X+ β3Y1+ ( e + Y1)
Ahora, parte de la confusión en las diversas respuestas parece derivarse del hecho de que diferentes modelos arrojarán resultados idénticos para el efecto del tratamiento , en mi formulación anterior. Entonces, si uno comparara el efecto del tratamiento para el modelo usando puntajes de cambio como la variable dependiente al modelo usando los "niveles" (con cada modelo incluyendo la línea de base Y 1 como covariable), la interpretación del efecto del tratamiento sería lo mismo. En los dos modelos que siguen a β 1 T será el mismo, y también lo serán las inferencias basadas en ellos (Bruce Weaver tiene publicado un código SPSS que demuestra la equivalencia también).β1TY1β1T
doh a n ge S c o r e M o de lL e v e l s M o de l: Y2- Y1= β1T+ β2X+ β3Y1+ e: Y2= β1T+ β2X+ β3Y1+ e
Entonces algunos discutirán (como Felix lo ha hecho en este hilo, y como Bruce Weaver ha hecho en algunas discusiones sobre el grupo de Google SPSS) que dado que los modelos producen el mismo efecto de tratamiento estimado, no importa cuál elija. No estoy de acuerdo, ya que la covariable de línea de base en el modelo de puntuación de cambio no puede interpretarse, nunca debe incluir la línea de base como una covariable (independientemente de si el efecto del tratamiento estimado es el mismo o no). Entonces, esto plantea otra pregunta, ¿cuál es el punto de usar los puntajes de cambio como variables dependientes? Como Felix también señaló, el modelo que usa la puntuación de cambio como la variable dependiente excluyendo la línea de base como covariable es diferente al modelo que usa los niveles. Para aclarar, los modelos posteriores darán diferentes efectos de tratamiento (especialmente en el caso de que el tratamiento esté correlacionado con la línea de base);
Change Score Model Without BaselineLevels Model:Y2−Y1=β1T+β2X+e:Y2=β1T+β2X+β3Y1+e
Esto se ha señalado en la literatura anterior como "La paradoja del Señor". Entonces, ¿qué modelo es el correcto? Bueno, en el caso de los experimentos aleatorios, yo diría que el modelo de Niveles es preferible (aunque si hiciste un buen trabajo al azar, el efecto del tratamiento promedio debería ser muy cercano entre los modelos). Otros han notado las razones por las cuales es preferible el modelo de niveles, la respuesta de Charlie hace un buen punto en que puede estimar los efectos de interacción con la línea de base en el modelo de niveles (pero no puede hacerlo en el modelo de puntaje de cambio). Whuber en esta respuesta a una pregunta muy similar demuestra cómo las puntuaciones de cambio inducen correlaciones entre los diferentes tratamientos.
En situaciones en las que el tratamiento no se asigna al azar, se debe considerar más el modelo que usa puntajes de cambio como variable dependiente. El principal beneficio del modelo de puntuación de cambio es que en cualquier momento se controlan los predictores invariantes del resultado. Entonces, digamos en la formulación anterior, es constante a lo largo del tiempo (por ejemplo, digamos una predisposición genética a tener cierto peso), y que X está correlacionado con si un individuo elige hacer ejercicio (y X no se observa). En ese caso, el modelo de puntuación de cambio es preferible. También en los casos en que la selección en el tratamiento se correlaciona con el valor de referencia, el modelo de puntuación de cambio puede ser preferible. Paul Allison en su periódico,XXXCambiar las puntuaciones como variables dependientes en el análisis de regresión , da estos mismos ejemplos (e influyó en gran medida en mi perspectiva sobre el tema, por lo que sugiero leerlo).
Esto no quiere decir que las puntuaciones de cambio siempre sean preferibles en entornos no aleatorios. En el caso de que espere que la línea de base tenga un efecto causal real en el peso posterior, debe usar el modelo de niveles. En el caso de que espere que la línea base tenga un efecto causal, y la selección en el tratamiento esté correlacionada con la línea base, el efecto del tratamiento se confunde con el efecto base.
He ignorado la nota de Charlie de que el logaritmo del peso podría usarse como la variable dependiente. Si bien no dudo que podría ser una posibilidad, es algo no sequitur a la pregunta inicial. Otra pregunta se ha discutido cuando es apropiado usar los logaritmos de la variable (y todavía se aplican en este caso). Probablemente hay literatura previa sobre el tema que podría ayudarlo a guiarlo sobre si también es apropiado usar el peso registrado.
Citación
Allison, Paul D. 1990. Cambie los puntajes como variables dependientes en el análisis de regresión . Metodología Sociológica 20: 93-114. Versión PDF pública .