Para una regresión logística binaria, el caso de uso habitual para el GLM binomial con un enlace logit, está modelando la probabilidad de que su variable dependiente sea un "éxito" (o "sí"), convencionalmente codificado como . La forma en que está haciendo esto es modelando las probabilidades de registro. Entonces, en lugar de modelar la media de la respuesta como en OLS, está modelando el cambio en las probabilidades de registro:1
Pr ( y= 1 ) = θ =logit- 1(β0 0+β1X1+β2X2+ . . . +β7 7X7 7)
Donde y .logit ( x ) = log(X1 - x)logit- 1( x ) =Exp( x )1 + exp( x )
Una explicación más completa y muy accesible de esto se puede encontrar en Agresti, Introducción al análisis de datos categóricos.
Pero a su pregunta particular, usted declara que está modelando la proporción de éxitos. Esto no es realmente lo que un GLM binomial está acostumbrado a hacer. Sin embargo, lo que realmente buscas es lo que hace un GLM binomial, y aún es posible en R. Solo requiere un ligero ajuste a lo que estás haciendo. En el caso de que tenga un número finito de pruebas que pueden tener éxitos, aún puede usar el mismo modelo, que tiene densidad
Debido a que sus valores están fijados por diseño experimental, son sus éxitos observados, está realizando inferencia en el parámetronortey∈ { 0 ... n }
Pr ( y) ∼ (nortey)θy( 1 - θ)n - y
norteyθ de la misma manera que el caso de respuesta binaria más típico (arriba), en el que se fija en 1, toma el valor 1 con probabilidad , y es una función de sus parámetros. Para el caso del enlace logit, entonces , principalmente porque esta transformada existe en toda la línea real, en lugar del intervalo unitario . (En Agresti se describen otras propiedades deseables del enlace logit, incluida la validez de los coeficientes incluso en entornos donde se usan muestras no aleatorias como diseños de control de casos; este no es el caso, por ejemplo, de las funciones de enlace probit).
norteyθθlogit ( θ ) =β0 0+β1X1+ . . . +βyoXyo
θ
En términos de R, simplemente cree un objeto (que usted glmDV
llama) que es una matriz de 2 columnas, la primera columna el número de éxitos y el segundo el número total de fallas . ¡El resto de la declaración sigue siendo la misma!yn - y
0
s &1
s (lo que deduzco es lo que tiene en función de su descripción), debe usar unweights
argumento w / ? Glm , donde los pesos son el número de ensayos totales para cada observación