El comportamiento que está observando es el caso "típico" en la regresión logística, pero no siempre es cierto. También tiene mucha más generalidad (ver más abajo). Es la consecuencia de la confluencia de tres hechos separados.
- La elección de modelar las probabilidades de registro como una función lineal de los predictores,
- El uso de la máxima verosimilitud para obtener estimaciones de los coeficientes en el modelo de regresión logística, y
- La inclusión de un término de intercepción en el modelo.
Si alguno de los anteriores no está presente, entonces las probabilidades promedio estimadas no coincidirán, en general, con la proporción de las de la muestra.
Sin embargo, (casi) todo el software estadístico utiliza la estimación de máxima verosimilitud para tales modelos, por lo que, en la práctica, los ítems 1 y 2 están esencialmente siempre presentes, y el ítem 3 generalmente está presente, excepto en casos especiales.
Algunos detalles
En el típico marco de regresión logística, observamos el resultado de ensayos binomiales independientes con probabilidad . Deje ser las respuestas observadas. Entonces, la probabilidad total es
por lo que la probabilidad de registro es
y i L = n ∏ i = 1 p y i i ( 1 - p i ) 1 - y i = n ∏ i = 1 exp ( y i log ( p i / ( 1 - p i ) ) + log ( 1 - p i ) )pagyoyyo
L = ∏i = 1nortepagyyoyo( 1 - pyo)1 - yyo= ∏i = 1norteExp( yyoIniciar sesión( pyo/ (1- pyo) ) + log( 1 - pyo) ),
ℓ = ∑i = 1norteyyoIniciar sesión( pyo/ (1- pyo) ) + ∑i = 1norteIniciar sesión( 1 - pyo).
Ahora, tenemos un vector de predictores para cada observación y del hecho 1 anterior, el modelo de regresión logística postula que
para algún vector desconocido de parámetros . Nota : Al reorganizar esto, obtenemos que .Xyo
Iniciar sesiónpagyo1 - pyo= βTXyo,
βpagyo= 1 / ( 1 + e- βTXyo)
El uso de la máxima probabilidad para ajustarse al modelo (Hecho 2) arroja un conjunto de ecuaciones para resolver considerando . Observe que
utilizando la relación lineal supuesta entre las probabilidades de registro y los predictores. Esto significa que el MLE satisface
ya que los MLE son invariables en las transformaciones, por lo tanto, en este caso.∂ℓ / ∂β= 0
∂ℓ∂β= ∑yoyyoXyo- ∑yoXyo1 + exp( - βTXyo)= ∑yoyyoXyo- ∑yopagyoXyo,
∑yoyyoXyo= ∑yopag^yoXyo,
pag^yo= ( 1 + exp( - β^TXyo) )- 1
Usando el hecho 3, si tiene un componente que siempre es 1 para cada , entonces y entonces la proporción empírica de respuestas positivas coincide con promedio de las probabilidades ajustadas.Xyojyo∑yoyyoXyo j= ∑yoyyo= ∑yopag^yo
Una simulación
La inclusión de una intercepción es importante. Aquí hay un ejemplo en para demostrar que el comportamiento observado puede no ocurrir cuando no hay intercepción en el modelo.R
x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )
Caso general : como se mencionó anteriormente, la propiedad de que la respuesta media es igual a la media pronosticada promedio tiene una generalidad mucho mayor para la clase de modelos lineales generalizados ajustados por la máxima verosimilitud, usando la función de enlace canónico e incluyendo una intercepción en el modelo.
Referencias
Algunas buenas referencias para la teoría asociada son las siguientes.
- A. Agresti (2002), Análisis de datos categóricos , 2ª ed., Wiley.
- P. McCullagh y JA Nelder (1989), Modelos lineales generalizados , 2ª ed., Chapman & Hall. (Texto de autores originales de los métodos generales).