¿Cuál es la diferencia fundamental entre estos dos modelos de regresión?

Supongamos que tengo respuestas bivariadas con correlación significativa. Estoy tratando de comparar las dos formas de modelar estos resultados. Una forma es modelar la diferencia entre los dos resultados: Otra forma es usarlos o modelarlos:

(y_{i 2} - y_{i 1} = β_{0} + X^{'} β)

$(y_{i2}-y_{i1}=\beta_0+X'\beta)$ glsgee

(y_{i j} = β_{0} + time + X^{'} β)

$(y_{ij}=\beta_0+\text{time}+X'\beta)$

Aquí hay un ejemplo de foo:

#create foo data frame

require(mvtnorm)
require(reshape)
set.seed(123456)
sigma <- matrix(c(4,2,2,3), ncol=2)
y <- rmvnorm(n=500, mean=c(1,2), sigma=sigma)
cor(y)
x1<-rnorm(500)
x2<-rbinom(500,1,0.4)
df.wide<-data.frame(id=seq(1,500,1),y1=y[,1],y2=y[,2],x1,x2)
df.long<-reshape(df.wide,idvar="id",varying=list(2:3),v.names="y",direction="long")
df.long<-df.long[order(df.long$id),]
    df.wide$diff_y<-df.wide$y2-df.wide$y1


#regressions
fit1<-lm(diff_y~x1+x2,data=df.wide)
fit2<-lm(y~time+x1+x2,data=df.long)
fit3<-gls(y~time+x1+x2,data=df.long, correlation = corAR1(form = ~ 1 | time))

¿Cuál es la diferencia fundamental entre fit1y fit2? ¿Y entre fit2y fit3, dado que están tan cerca de los valores y las estimaciones? $p$

r regression model-selection

— David Z
fuente

La diferencia entre fit1 y fit3 a veces se conoce como la paradoja de Lord. Vea aquí un poco de discusión (sobre por qué las estimaciones no cambian entre los modelos) y una referencia a un artículo de Paul Allison, stats.stackexchange.com/a/15759/1036 . Otra referencia es

Holland, Paul & Donald Rubin. 1983. On Lord’s Paradox. In Principles of modern psychological measurement: A festchrift for Frederic M. Lord edited by Wainer, Howard & Samuel Messick pgs:3-25. Lawrence Erlbaum Associates. Hillsdale, NJ.

— Andy W

Primero, presentaré un cuarto modelo para la discusión en mi respuesta:

ajuste1.5 <- lm (y_2 ~ x_1 + x_2 + y_1)

Parte 0
La diferencia entre fit1 y fit1.5 se resume mejor como la diferencia entre una diferencia restringida frente a una diferencia óptima.

Voy a usar un ejemplo más simple para explicar esto que el proporcionado anteriormente. Comencemos con fit1.5. Una versión más simple del modelo sería Por supuesto, cuando obtengamos una estimación OLS, encontrará la opción "óptima" para . Y, aunque parezca extraño escribir como tal, podríamos reescribir la fórmula como Podemos pensar en esto como la diferencia "óptima" entre las dos variables .

y_{2} = b_{0} + b_{1} \cdot x + b_{2} \cdot y_{1}

$y_2 = b_0 + b_1·x + b_2·y_1$

b_{2}

$b_2$

y_{2} - b_{2} \cdot y_{1} = b_{0} + b_{1} \cdot x

$y_2 - b_2·y_1 = b_0 + b_1·x$

y

$y$

Ahora, si decidimos restringir , entonces la fórmula / modelo se convierte en que es solo la diferencia (restringida). $b_2=1$

y_{2} - y_{1} = b_{0} + b_{1} \cdot x

$y_2 - y_1 = b_0 + b_1·x$

Tenga en cuenta que, en la demostración anterior, si deja que sea una variable dicotómica, y sea una prueba previa y un emparejamiento de puntaje posterior a la prueba, entonces el modelo de diferencia restringida sería solo la muestra independiente test para la ganancia en puntajes , mientras que el modelo de diferencia óptimo sería la prueba ANCOVA con las puntuaciones previas a la prueba que se utilizan como covariables. $x$ $y_1$ $y_2$ $t$

Parte 1
El modelo para fit2 puede pensarse mejor de manera similar al enfoque de diferencia utilizado anteriormente. Aunque esto es una simplificación excesiva (ya que a propósito estoy omitiendo los términos de error), el modelo podría presentarse como donde para los valores de y para los valores de . Aquí está la simplificación excesiva ... esto nos permite escribir Escrito de otra manera, . Mientras que el modelo fit1.5 tenía como el valor para hacer la diferencia óptima para el análisis OLS, aquí

y = b_{0} + b_{1} \cdot x + b_{2} \cdot t

$y = b_0 + b_1 · x + b_2 · t$

t = 0

$t=0$

y_{1}

$y_1$

t = 1

$t=1$

y_{2}

$y_2$

\begin{aligned} y_{1} & = b_{0} + b_{1} \cdot x \\ y_{2} & = b_{0} + b_{1} \cdot x + b_{2} \end{aligned}

$\begin{align}y_1 & = b_0 + b_1 · x \\ y_2 & = b_0 + b_1 · x + b_2\end{align}$

y_{2} - y_{1} = b_{2}

$y_2 - y_1 = b_2$

b_{2}

$b_2$

b_{2}

$b_2$ es esencialmente la diferencia promedio entre los valores (después de controlar las otras covariables).

y

$y$

Parte 2
Entonces, ¿cuál es la diferencia entre los modelos fit2 y fit3 ... en realidad, muy poco. El modelo fit3 tiene en cuenta la correlación en términos de error, pero esto solo cambia el proceso de estimación y, por lo tanto, las diferencias entre los dos resultados del modelo serán mínimas (más allá del hecho de que fit3 estima el factor autorregresivo).

Parte 2.5
Y incluiré un modelo más en esta discusión

fit4 <- lmer (y ~ time + x1 + x2 + (1 | id), data = df.long)

Este modelo de efectos mixtos tiene una versión ligeramente diferente del enfoque autorregresivo. Si tuviéramos que incluir el coeficiente de tiempo en los efectos aleatorios, esto sería comparable al cálculo de la diferencia entre las s para cada sujeto. (Pero esto no funcionará ... y el modelo no se ejecutará). $y$

— Gregg H
fuente