Como señaló kjetil b halvorsen, es, a su manera, un milagro que la regresión lineal admita una solución analítica. Y esto es así solo en virtud de la linealidad del problema (con respecto a los parámetros). En OLS, tiene
que tiene las condiciones de primer orden
- 2 ∑ i ( y i - x ′ i β ) x i = 0
Para un problema con
∑i(yi−x′iβ)2→minβ,
−2∑i(yi−x′iβ)xi=0
pvariables (incluida la constante, si es necesario; también hay cierta regresión a través de los problemas de origen), este es un sistema con
ecuaciones y
p incógnitas. Lo más importante es que es un sistema lineal, por lo que puede encontrar una solución utilizando la
teoría y práctica estándar de
álgebra lineal . Este sistema tendrá una solución con probabilidad 1 a menos que tenga variables perfectamente colineales.
pp
Ahora, con la regresión logística, las cosas ya no son tan fáciles. Anotando la función log-verosimilitud,
y tomando su derivada para encontrar el MLE, obtenemos
∂ l
l(y;x,β)=∑iyilnpi+(1−yi)ln(1−pi),pi=(1+exp(−θi))−1,θi=x′iβ,
Los parámetros
βingresan esto de una manera muy no lineal: para cada
i, hay una función no lineal, y se suman. No hay una solución analítica (excepto probablemente en una situación trivial con dos observaciones, o algo por el estilo), y hay que utilizar
métodos de optimización no linealpara encontrar las estimaciones
beta .
∂l∂β′=∑idpidθ(yipi−1−yi1−pi)xi=∑i[yi−11+exp(x′iβ)]xi
βiβ^
Una mirada un poco más profunda al problema (tomando la segunda derivada) revela que este es un problema de optimización convexo de encontrar un máximo de una función cóncava (una parábola multivariada glorificada), por lo que cualquiera de los dos existe, y cualquier algoritmo razonable debería encontrarlo más bien rápidamente, o las cosas vuelan al infinito. Esto último sucede con la regresión logística cuando para alguna cProb[Yi=1|x′iβ>c]=1ces decir, tienes una predicción perfecta. Este es un artefacto bastante desagradable: pensarías que cuando tienes una predicción perfecta, el modelo funciona perfectamente, pero curiosamente, es al revés.