Regresión logística: Bernoulli vs. Variables de respuesta binomial

Quiero realizar una regresión logística con la siguiente respuesta binomial y con y como mis predictores. $X_1$ $X_2$

ingrese la descripción de la imagen aquí

Puedo presentar los mismos datos que las respuestas de Bernoulli en el siguiente formato.

ingrese la descripción de la imagen aquí

Las salidas de regresión logística para estos 2 conjuntos de datos son en su mayoría las mismas. Los residuos de desviación y AIC son diferentes. (La diferencia entre la desviación nula y la desviación residual es la misma en ambos casos: 0.228).

Los siguientes son los resultados de regresión de R. Los conjuntos de datos se denominan binom.data y bern.data.

Aquí está la salida binomial.

Call:
glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, 
    family = binomial, data = binom.data)

Deviance Residuals: 
[1]  0  0  0

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance:  2.2846e-01  on 2  degrees of freedom
Residual deviance: -4.9328e-32  on 0  degrees of freedom
AIC: 11.473

Number of Fisher Scoring iterations: 4

Aquí está la salida de Bernoulli.

Call:
glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6651  -1.3537   0.7585   0.9281   1.0108  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 15.276  on 11  degrees of freedom
Residual deviance: 15.048  on  9  degrees of freedom
AIC: 21.048

Number of Fisher Scoring iterations: 4

Mis preguntas:

1) Puedo ver que las estimaciones puntuales y los errores estándar entre los 2 enfoques son equivalentes en este caso particular. ¿Es esta equivalencia verdadera en general?

2) ¿Cómo puede justificarse matemáticamente la respuesta a la pregunta n. ° 1?

3) ¿Por qué los residuos de desviación y AIC son diferentes?

— Un científico
fuente

Respuestas:

1) si. Puede agregar / desagregar (?) Datos binomiales de individuos con las mismas covariables. Esto viene del hecho de que la estadística suficiente para un modelo binomial es el número total de eventos para cada vector covariable; y el Bernoulli es solo un caso especial del binomio. Intuitivamente, cada ensayo de Bernoulli que constituye un resultado binomial es independiente, por lo que no debería haber una diferencia entre contarlos como un resultado único o como ensayos individuales separados.

2) Digamos que tenemos vectores covariables únicos , cada uno de los cuales tiene un resultado binomial en ensayos, es decir, Ha especificado una regresión logística modelo, entonces aunque luego veremos que esto no es importante. $n$ $x_1, x_2, \ldots, x_n$ $N_i$

Y_{i} \sim B i n (N_{i}, p_{i})

$Y_i \sim \mathrm{Bin}(N_i, p_i)$

l o g i t (p_{i}) = \sum_{k = 1}^{K} β_{k} x_{i k}

$\mathrm{logit}(p_i) = \sum_{k=1}^K \beta_k x_{ik}$

La probabilidad de registro para este modelo es y maximizamos esto con respecto a (en los términos ) para obtener nuestras estimaciones de parámetros.

ℓ (β; Y) = \sum_{i = 1}^{n} \log (\binom{N_{i}}{Y_{i}}) + Y_{i} \log (p_{i}) + (N_{i} - Y_{i}) \log (1 - p_{i})

$\ell(\beta; Y) = \sum_{i=1}^n \log {N_i \choose Y_i} + Y_i \log(p_i) + (N_i - Y_i) \log(1-p_i)$

β

$\beta$

p_{i}

$p_i$

Ahora, considere que para cada , dividimos el resultado binomial en resultados individuales de Bernoulli / binarios, como lo ha hecho. Específicamente, cree Es decir, los primeros son 1s y el resto son 0s. Esto es exactamente lo que hiciste, pero igualmente podrías haber hecho el primero como 0s y el resto como 1s, o cualquier otro orden, ¿verdad? $i = 1, \ldots, n$ $N_i$

Z_{i 1}, \dots, Z_{i Y_{i}} = 1

$Z_{i1}, \ldots, Z_{iY_i} = 1$

Z_{i (Y_{i} + 1)}, \dots, Z_{i N_{i}} = 0

$Z_{i(Y_i+1)}, \ldots, Z_{iN_i} = 0$

Y_{i}

$Y_i$

(N_{i} - Y_{i})

$(N_i - Y_i)$

Su segundo modelo dice que con el mismo modelo de regresión para que el anterior. La probabilidad de registro para este modelo es y debido a la forma en que definimos nuestros s, esto se puede simplificar a que debería ser bastante familiar.

Z_{i j} \sim B e r n o u l l i (p_{i})

$Z_{ij} \sim \mathrm{Bernoulli}(p_i)$

p_{i}

$p_i$

ℓ (β; Z) = \sum_{i = 1}^{n} \sum_{j = 1}^{N_{i}} Z_{i j} \log (p_{i}) + (1 - Z_{i j}) \log (1 - p_{i})

$\ell(\beta; Z) = \sum_{i=1}^n \sum_{j=1}^{N_i} Z_{ij}\log(p_i) + (1-Z_{ij})\log(1-p_i)$

Z_{i j}

$Z_{ij}$

ℓ (β; Y) = \sum_{i = 1}^{n} Y_{i} \log (p_{i}) + (N_{i} - Y_{i}) \log (1 - p_{i})

$\ell(\beta; Y) = \sum_{i=1}^n Y_i \log(p_i) + (N_i - Y_i)\log(1-p_i)$

Para obtener las estimaciones en el segundo modelo, maximizamos esto con respecto a . La única diferencia entre este y el primer log-verosimilitud es el término , que es constante con respecto a , por lo que no afecta la maximización y obtendremos las mismas estimaciones. $\beta$ $\log {N_i \choose Y_i}$ $\beta$

3) Cada observación tiene una desviación residual. En el modelo binomial, son donde es la probabilidad estimada de su modelo. Tenga en cuenta que su modelo binomial está saturado (0 grados residuales de libertad) y tiene un ajuste perfecto: para todas las observaciones, entonces para todo .

D_{i} = 2 [Y_{i} \log (\frac{Y_{i} / N_{i}}{{\hat{p}}_{i}}) + (N_{i} - Y_{i}) \log (\frac{1 - Y_{i} / N_{i}}{1 - {\hat{p}}_{i}})]

$D_i = 2\left[Y_i \log \left( \frac{Y_i/N_i}{\hat{p}_i} \right) + (N_i-Y_i) \log \left( \frac{1-Y_i/N_i}{1-\hat{p}_i} \right)\right]$

{\hat{p}}_{i}

$\hat{p}_i$

{\hat{p}}_{i} = Y_{i} / N_{i}

$\hat{p}_i = Y_i/N_i$

D_{i} = 0

$D_i = 0$

i

$i$

En el modelo de Bernoulli, Aparte del hecho de que ahora tendrá residuos de desviación (en lugar de como con los datos binomiales), estos serán o dependiendo de si o , y obviamente no son lo mismo que lo anterior. Incluso si suma estos sobre para obtener una suma de residuos de desviación para cada , no obtendrá lo mismo:

D_{i j} = 2 [Z_{i j} \log (\frac{Z_{i j}}{{\hat{p}}_{i}}) + (1 - Z_{i j}) \log (\frac{1 - Z_{i j}}{1 - {\hat{p}}_{i}})]

$D_{ij} = 2\left[Z_{ij} \log \left( \frac{Z_{ij}}{\hat{p}_i} \right) + (1-Z_{ij}) \log \left(\frac{1-Z_{ij}}{1-\hat{p}_i} \right)\right]$

\sum_{i = 1}^{n} N_{i}

$\sum_{i=1}^n N_i$

n

$n$

D_{i j} = - 2 \log ({\hat{p}}_{i})

$D_{ij} = -2\log(\hat{p}_i)$

D_{i j} = - 2 \log (1 - {\hat{p}}_{i})

$D_{ij} = -2\log(1-\hat{p}_i)$

Z_{i j} = 1

$Z_{ij} = 1$

0

$0$

j

$j$

i

$i$

D_{i} = \sum_{j = 1}^{N_{i}} D_{i j} = 2 [Y_{i} \log (\frac{1}{{\hat{p}}_{i}}) + (N_{i} - Y_{i}) \log (\frac{1}{1 - {\hat{p}}_{i}})]

$D_i = \sum_{j=1}^{N_i} D_{ij} = 2\left[Y_i \log \left( \frac{1}{\hat{p}_i} \right) + (N_i-Y_i) \log \left( \frac{1}{1-\hat{p}_i} \right)\right]$

El hecho de que el AIC es diferente (pero el cambio en la desviación no lo es) vuelve al término constante que fue la diferencia entre las probabilidades de registro de los dos modelos. Al calcular la desviación, esto se cancela porque es igual en todos los modelos basados en los mismos datos. El AIC se define como y ese término combinatorio es la diferencia entre los s:

A I C = 2 K - 2 ℓ

$AIC = 2K - 2\ell$

ℓ

$\ell$

A I C_{B e r n o u l l i} - A I C_{B i n o m i a l} = 2 \sum_{i = 1}^{n} \log (\binom{N_{i}}{Y_{i}}) = 9.575

$AIC_{\mathrm{Bernoulli}} - AIC_{\mathrm{Binomial}} = 2\sum_{i=1}^n \log {N_i \choose Y_i} = 9.575$

— marca
fuente

Gracias por tu respuesta muy detallada, Mark! Perdón por el retraso en mi respuesta, estaba de vacaciones. 3) Dado que los 2 modelos dan resultados diferentes para residuos de desviación y AIC, ¿cuál es correcto o mejor? a) Según tengo entendido, las observaciones con una desviación residual superior a dos pueden indicar falta de ajuste, por lo que los valores absolutos de los residuos de desviación son importantes. b) Dado que el AIC se usa para comparar el ajuste entre diferentes modelos, quizás no haya un AIC "correcto". Simplemente compararía los AIC de 2 modelos binomiales o 2 modelos de Bernoulli.

— Un científico el

a) Para los datos binarios, la será> 2 si ( y ) o ( y ). Entonces, incluso si su modelo se ajusta perfectamente a los datos binomiales para el ésimo vector covariable (es decir, , por ejemplo), entonces los s que ha asignado arbitrariamente como 1 tendrá . Por esta razón, creo que los residuos de desviación tienen más sentido con los datos binomiales. Además, la desviación misma de los datos binarios no tiene sus propiedades habituales ...

D_{i j}

$D_{ij}$

Z_{i j} = 1

$Z_{ij} = 1$

{\hat{p}}_{i} < e^{- 1} = 0.368

$\hat{p}_i < e^{-1} = 0.368$

Z_{i j} = 0

$Z_{ij} = 0$

{\hat{p}}_{i} > 1 - e^{- 1} = 0.632

$\hat{p}_i > 1 - e^{-1} = 0.632$

i

$i$

Y_{i} / N_{i} = {\hat{p}}_{i} < 0.368

$Y_i / N_i = \hat{p}_i < 0.368$

Y_{i}

$Y_i$

Z_{i j}

$Z_{ij}$

D_{i j} > 2

$D_{ij} > 2$

— Mark

... Enlace a más información sobre esa última declaración

— Mark

b) Sí, comparar entre modelos solo tiene sentido cuando los datos utilizados para ajustar cada modelo son exactamente los mismos. Entonces, compara Bernoulli con Bernoulli o binomial con binomial.

A I C

$AIC$

— Marcar el

Gracias Mark! ¡Sus respuestas reflexivas y detalladas son muy apreciadas!

— Un científico el

Solo quiero hacer comentarios sobre el último párrafo, “El hecho de que el AIC es diferente (pero el cambio en la desviación no lo es) vuelve al término constante que fue la diferencia entre las probabilidades de registro de los dos modelos. Al calcular el cambio en la desviación, esto se cancela porque es igual en todos los modelos basados en los mismos datos ". Desafortunadamente, esto no es correcto para el cambio en la desviación. La desviación no incluye el término constante Ex (constante adicional término en el log-verosimilitud para los datos binomiales). Por lo tanto, el cambio en la desviación no tiene nada que ver con el término constante EX. La desviación compara un modelo dado con el modelo completo. El hecho de que las desviaciones son diferentes de Bernoulli / binary y el modelado binomial pero el cambio en la desviación no se debe a la diferencia en los valores de probabilidad de registro del modelo completo. Estos valores se cancelan al calcular los cambios de desviación. Por lo tanto, los modelos de regresión logística de Bernoulli y binomial producen cambios de desviación idénticos siempre que las probabilidades predichas pij y pi sean las mismas. De hecho, eso es cierto para el probit y otras funciones de enlace.

Supongamos que lBm y lBf denotan los valores de probabilidad logarítmica del modelo de ajuste my modelo completo f a los datos de Bernoulli. La desviación es entonces

    DB=2(lBf - lBm)=-2(lBm – lBf).

Aunque el lBf es cero para los datos binarios, no hemos simplificado el DB y lo hemos mantenido como está. La desviación del modelado binomial con las mismas covariables es

    Db=2(lbf+Ex – (lbm+Ex))=2(lbf – lbm) = -2(lbm – lbf)

donde lbf + Ex y lbm + Ex son los valores de probabilidad de registro de los modelos full ym ajustados a los datos binomiales. El término constante adicional (Ex) desaparece del lado derecho de la Db. Ahora observe el cambio en las desviaciones del Modelo 1 al Modelo 2. Del modelado de Bernoulli, tenemos un cambio en la desviación de

    DBC=DB2-DB1=2(lBf – lBm2)-2(lBf – lBm1) =2(lBm1 – lBm2).

Del mismo modo, el cambio en la desviación del ajuste binomial es

    DbC=DB2-DB1=2(lbf – lbm2)-2(lbf – lbm1) =2(lbm1 – lbm2).

Se deduce de inmediato que los cambios de desviación están libres de las contribuciones de probabilidad logarítmica de los modelos completos, lbF y lbf. Por lo tanto, obtendremos el mismo cambio en la desviación, DBC = DbC, si lBm1 = lbm1 y lBm2 = lbm2. Sabemos que ese es el caso aquí y por eso estamos recibiendo los mismos cambios de desviación de Bernoulli y el modelado binomial. La diferencia entre lbf y lBf conduce a las diferentes desviaciones.

— Saei
fuente

¿Sería posible que editaras el formato de tu respuesta? Desafortunadamente en esta forma no es muy legible. Le animo a que rompa el texto en párrafos y agregue el formato a las fórmulas. Tampoco siempre está claro qué significan las abreviaturas que usa.

T E X

$\TeX$

— Tim

Muchas gracias Tim. No estoy familiarizado con el formato TEX. Originalmente escribí la palabra, pero no pude copiar y pegar. He separado las ecuaciones del texto.

— Saei

No estoy seguro si leyó mal ese párrafo: dije "el AIC es diferente ( pero el cambio en la desviación no lo es )", y el resto del párrafo explica por qué el AIC es diferente entre los dos modelos. No dije que el cambio en la desviación dependiera del término constante. De hecho, dije " Al calcular el cambio en la desviación, esto [el término constante] se cancela porque es el mismo en todos los modelos basados en los mismos datos "

— Marque el

El problema es que solo hay un "término constante" en el texto y es el término combinatorio (coeficiente binomial). Cuando dice "esto" se cancela, implica que el término constante se incluye en la desviación. La diferencia entre las desviaciones de los modelos de Bernoulli y binomial son las contribuciones del valor de probabilidad de registro lbf de todo el modelo. El lbf no varía según los diferentes modelos binomiales en los mismos datos y se cancela al calcular el cambio en la desviación.

— Saei

Ah ok, ya veo lo que quieres decir. He editado mi respuesta en consecuencia, dejando en la referencia al cambio en la desviación porque el autor de la pregunta lo mencionó específicamente. El cambio en la desviación es el mismo porque la desviación no depende del término constante.

— Marcar el