La respuesta de @joceratops se centra en el problema de optimización de la máxima probabilidad de estimación. De hecho, este es un enfoque flexible que se adapta a muchos tipos de problemas. Para estimar la mayoría de los modelos, incluidos los modelos de regresión lineal y logística, existe otro enfoque general que se basa en el método de estimación de momentos.
El estimador de regresión lineal también se puede formular como la raíz de la ecuación de estimación:
0=XT(Y−Xβ)
En este sentido, es visto como el valor que recupera un residuo promedio de 0. No es necesario confiar en ningún modelo de probabilidad subyacente para tener esta interpretación. Sin embargo, es interesante derivar las ecuaciones de puntuación para una probabilidad normal, de hecho verá que toman exactamente la forma que se muestra arriba. Maximizar la probabilidad de una familia exponencial regular para un modelo lineal (por ejemplo, regresión lineal o logística) es equivalente a obtener soluciones para sus ecuaciones de puntaje.β
0=∑i=1nSi(α,β)=∂∂βlogL(β,α,X,Y)=XT(Y−g(Xβ))
Donde tiene el valor esperado g ( X i β ) . En la estimación GLM, se dice que g es el inverso de una función de enlace. En las ecuaciones de probabilidad normal, g - 1 es la función de identidad, y en la regresión logística g - 1 es la función logit. Un enfoque más general sería requerir 0 = ∑ n i = 1 Y - g ( X i β ) que permite la especificación errónea del modelo.Yig(Xiβ)gg−1g−10=∑ni=1Y−g(Xiβ)
Además, es interesante observar que para familias exponenciales regulares, que se llama una relación media-varianza. De hecho, para la regresión logística, la relación de varianza media es tal que la mediap=g(Xβ)está relacionada con la varianza devar(Yi)=pi(1-pi)∂g(Xβ)∂β=V(g(Xβ))p=g(Xβ)var(Yi)=pi(1−pi). Esto sugiere una interpretación de un modelo GLM mal especificado como uno que da un residuo de Pearson promedio 0. Esto sugiere además una generalización para permitir derivadas medias funcionales no proporcionales y relaciones media-varianza.
Un enfoque de ecuación de estimación generalizada especificaría modelos lineales de la siguiente manera:
0=∂g(Xβ)∂βV−1(Y−g(Xβ))
Vg(Xβ)
gViig(Xiβ)(1−g(Xβ))β. Lo cual, dados los peligros bien documentados de interpretar los OR como RR, me corresponde preguntar por qué alguien ya se ajusta a los modelos de regresión logística.