¿Cuándo se resuelve la regresión logística en forma cerrada?

Tome e y suponga que modelamos la tarea de predecir y dada x usando regresión logística. ¿Cuándo se pueden escribir los coeficientes de regresión logística en forma cerrada? $x \in \{0,1\}^d$ $y \in \{0,1\}$

Un ejemplo es cuando usamos un modelo saturado.

Es decir, defina , donde indexa conjuntos en el conjunto de potencia de , y devuelve 1 si todas las variables en el -ésimo conjunto son 1 y 0 en caso contrario. Luego puede expresar cada en este modelo de regresión logística como un logaritmo de una función racional de estadísticas de los datos. $P(y|x) \propto \exp(\sum_i w_i f_i(x_i))$ $i$ $\{x_1,\ldots,x_d\}$ $f_i$ $i$ $w_i$

¿Hay otros ejemplos interesantes cuando existe una forma cerrada?

logistic generalized-linear-model

— Yaroslav Bulatov
fuente

Supongo que quiere decir "¿cuándo están los MLE de los parámetros en forma cerrada?"

— Glen_b -Reinstale a Monica el

¿Puedes dar más detalles de lo que hiciste? ¿Su pregunta se lee como si intentara derivar el estimador de mínimos cuadrados ordinario para un problema de regresión logística?

— Momo

Gracias por la interesante publicación / pregunta, Yaroslav. ¿Tiene una referencia para el ejemplo que muestra?

— Bitwise

Ha pasado un tiempo, pero posiblemente fue en el libro "Modelos gráficos" de Lauritzen. Los fundamentos más amplios de la respuesta a esta pregunta están ahí: se obtiene una solución de forma cerrada cuando el (hiper) gráfico formado por suficientes estadísticas es cordal

— Yaroslav Bulatov

Esto podría ser interesante tandfonline.com/doi/abs/10.1080/ ... Creo que este es un caso especial de una solución analítica cuando solo tiene una tabla 2x2

— Austin

Respuestas:

Como señaló kjetil b halvorsen, es, a su manera, un milagro que la regresión lineal admita una solución analítica. Y esto es así solo en virtud de la linealidad del problema (con respecto a los parámetros). En OLS, tiene que tiene las condiciones de primer orden Para un problema con

\sum_{i} (y_{i} - x_{i}^{'} β)^{2} \to min_{β},

$\sum_i (y_i - x_i' \beta)^2 \to \min_\beta,$

- 2 \sum_{i} (y_{i} - x_{i}^{'} β) x_{i} = 0

$-2 \sum_i (y_i - x_i'\beta) x_i = 0$

p

$p$ variables (incluida la constante, si es necesario; también hay cierta regresión a través de los problemas de origen), este es un sistema con

ecuaciones y

incógnitas. Lo más importante es que es un sistema lineal, por lo que puede encontrar una solución utilizando la teoría y práctica estándar de álgebra lineal . Este sistema tendrá una solución con probabilidad 1 a menos que tenga variables perfectamente colineales.

p

$p$

p

$p$

Ahora, con la regresión logística, las cosas ya no son tan fáciles. Anotando la función log-verosimilitud, y tomando su derivada para encontrar el MLE, obtenemos

l (y; x, β) = \sum_{i} y_{i} \ln p_{i} + (1 - y_{i}) \ln (1 - p_{i}), p_{i} = (1 + \exp (- θ_{i}))^{- 1}, θ_{i} = x_{i}^{'} β,

$l(y;x,\beta) = \sum_i y_i \ln p_i + (1-y_i) \ln(1-p_i), \quad p_i = (1+\exp(-\theta_i))^{-1}, \quad \theta_i = x_i' \beta,$

Los parámetros

ingresan esto de una manera muy no lineal: para cada

, hay una función no lineal, y se suman. No hay una solución analítica (excepto probablemente en una situación trivial con dos observaciones, o algo por el estilo), y hay que utilizarmétodos de optimización no linealpara encontrar las estimaciones

\frac{\partial l}{\partial β^{'}} = \sum_{i} \frac{d p_{i}}{d θ} (\frac{y_{i}}{p_{i}} - \frac{1 - y_{i}}{1 - p_{i}}) x_{i} = \sum_{i} [y_{i} - \frac{1}{1 + \exp (x_{i}^{'} β)}] x_{i}

$\frac{\partial l}{\partial \beta'} = \sum_i \frac{{\rm d}p_i}{{\rm d}\theta}\Bigl( \frac{y_i}{p_i} - \frac{1-y_i}{1-p_i} \Bigr)x_i = \sum_i \Bigl[y_i-\frac1{1+\exp(x_i'\beta)}\Bigr]x_i$

β

$\beta$

i

$i$

\hat{β}

$\hat\beta$

Una mirada un poco más profunda al problema (tomando la segunda derivada) revela que este es un problema de optimización convexo de encontrar un máximo de una función cóncava (una parábola multivariada glorificada), por lo que cualquiera de los dos existe, y cualquier algoritmo razonable debería encontrarlo más bien rápidamente, o las cosas vuelan al infinito. Esto último sucede con la regresión logística cuando para alguna ${\rm Prob}[Y_i=1|x_i'\beta > c] = 1$ $c$ es decir, tienes una predicción perfecta. Este es un artefacto bastante desagradable: pensarías que cuando tienes una predicción perfecta, el modelo funciona perfectamente, pero curiosamente, es al revés.

— StasK
fuente

La pregunta es por qué su última ecuación no tiene solución. ¿Se debe a la inversa de la función logística divergente en 0 y 1, o se debe a la no linealidad en general?

— eyaler

(1) En cuanto a su último párrafo: Desde una perspectiva matemática que hace el trabajo "perfectamente" en el sentido de que un MLE rendirá un hiperplano de separación perfecta. Si su algoritmo numérico se comporta de manera sensata en esa circunstancia es una cuestión separada. El suavizado de Laplace se usa a menudo en tales situaciones.

— cardenal

@eyaler, diría que esto se debe a la no linealidad en general. Tengo entendido que hay un conjunto limitado de circunstancias en que esto se puede resolver, aunque no sé cuáles son estas circunstancias.

— StasK

No entiendo, ¿qué condición matemática está presente que hace que el sistema no tenga una solución de forma cerrada? ¿Existe una condición general en la que las cosas en general no tienen soluciones de forma cerrada?

— Charlie Parker el

¿El hecho de que la regresión logística no tiene forma cerrada es algo que uno puede probar al observar la iteración de descenso de gradiente?

— Charlie Parker el

Esta publicación fue originalmente pensada como un comentario largo en lugar de una respuesta completa a la pregunta en cuestión.

A partir de la pregunta, no está claro si el interés radica solo en el caso binario o, tal vez, en casos más generales en los que pueden ser continuos o tomar otros valores discretos.

l o g i t (Pr (Y_{i j} = 1)) = α_{i} - α_{j},

$\mathrm{logit}( \Pr(Y_{ij} = 1) ) = \alpha_i - \alpha_j ,$

α_{i}

$\alpha_i$

i

$i$

Y_{i j} = 1

$Y_{ij} = 1$

i

$i$ se prefirió sobre artículo

j

$j$ en una comparación pareada

$(i,j)$ $\hat{\alpha}_i$ $S_i = \sum_{j \neq i} Y_{ij}$

Para interpretar esto, imagine un torneo completo de todos contra todos en su deporte competitivo favorito. Luego, este resultado dice que el modelo Bradley-Terry clasifica a los jugadores / equipos según su porcentaje de victorias. Supongo que si este es un resultado alentador o decepcionante depende de su punto de vista.

NB Este resultado de orden de rango no se cumple, en general, cuando no se juega un round-robin completo.

— cardenal
fuente

Me interesaba el binario porque era más fácil de analizar. He encontrado una condición suficientemente amplia en las obras de Lauritzen: se obtiene una forma cerrada si un modelo log-lineal correspondiente es descomponible

— Yaroslav Bulatov