En este caso, puede contraer sus datos para
donde es el número de instancias para e con . Supongamos que hay observaciones en general. Sijx=iy=ji,j∈{0,1}n
X∖ Y0 010 0S00S101S01S11
Syo jx = iy= ji , j ∈ { 0 , 1 }norte
Si ajustamos el modelo (donde es nuestra función de enlace) nosotros ' Descubriré que es el logit de la proporción de éxitos cuando y es el logit de la proporción de éxitos cuando . En otras palabras,
y
g β 0 xpagyo= g- 1( xTyoβ) = g- 1( β0 0+ β11Xyo= 1)solβ^0 0β 0 + β 1 x i = 1 β 0 = g ( S 01Xyo= 0β^0 0+ β^1Xyo= 1 β 0+ β 1=g(S11
β^0 0= g( S01S00+S01)
β^0 0+ β^1=g( S11S10+ S11) .
Vamos a ver esto es R
.
n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)
tbl <- table(x=x,y=y)
mod <- glm(y ~ x, family=binomial())
# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])
# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])
Entonces, los coeficientes de regresión logística son exactamente transformaciones de proporciones provenientes de la tabla.
El resultado es que ciertamente podemos analizar este conjunto de datos con una regresión logística si tenemos datos provenientes de una serie de variables aleatorias de Bernoulli, pero resulta que no es diferente a analizar directamente la tabla de contingencia resultante.
Quiero comentar por qué esto funciona desde una perspectiva teórica. Cuando estamos ajustando una regresión logística, estamos usando el modelo que . Luego decidimos modelar la media como una transformación de un predictor lineal en , o en los símbolos . En nuestro caso, solo tenemos dos valores únicos de y, por lo tanto, solo hay dos valores únicos de , digamos y . Debido a nuestra suposición de independencia, tenemos
y
YyoEl | Xyo∼⊥Berna ( pyo)Xyopagyo= g- 1( β0 0+ β1Xyo)Xyopagyopag0 0pag1
∑i : xyo= 0Yyo= S01∼ Bin ( n0 0, p0 0)
∑i : xyo= 1Yyo= S11∼ Bin ( n1, p1) .
Tenga en cuenta cómo estamos usando el hecho de que , y a su vez y , no son aleatorios: si este no fuera el caso, entonces estos no serían necesariamente binomiales.
Xyonorte0 0norte1
Esto significa que
S01/ n0 0= S01S00+ S01→pagpag0 0 y S11/ n1= S11S10+ S11→pagpag1.
La idea clave aquí: nuestros RV de Bernoulli son mientras que nuestros RV binomiales son , pero ambos tienen la misma probabilidad de éxito. Esa es la razón por la cual estas proporciones de la tabla de contingencia estiman lo mismo que una regresión logística a nivel de observación. No es solo una coincidencia con la tabla: es una consecuencia directa de los supuestos de distribución que hemos hecho.YyoEl | Xyo= j ∼ Berna ( pj)Sj 1∼ Bin ( nj, pj)