¿Puede dar una explicación intuitiva simple del método IRLS para encontrar el MLE de un GLM?

Antecedentes:

Estoy tratando de seguir la revisión de Princeton de la estimación de MLE para GLM .

Entiendo los conceptos básicos de la estimación MLE: likelihood, score, observada y esperada Fisher informationy la Fisher scoringtécnica. Y sé cómo justificar la regresión lineal simple con la estimación MLE .

La pregunta:

Ni siquiera puedo entender la primera línea de este método :(

¿Cuál es la intuición detrás de las variables de trabajo definidas como: $z_i$

z_{i} = {\hat{η}}_{i} + (y_{i} - {\hat{μ}}_{i}) \frac{d η_{i}}{d μ_{i}}

$z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i}$

¿Por qué se usan en lugar de para estimar ? $y_i$ $\beta$

¿Y cuál es su relación con el response/link functioncual es la conexión entre y $\eta$ $\mu$

Si alguien tiene una explicación simple o me puede dirigir a un texto de nivel más básico sobre esto, estaría agradecido.

— ihadanny
fuente

Como nota al margen, para mí aprendí sobre IRLS en el contexto de la estimación robusta (M-) antes de escuchar sobre todo el marco "GLM" (que todavía no entiendo completamente). Para una perspectiva práctica de este enfoque, como una generalización simple de mínimos cuadrados, recomendaría la fuente que encontré por primera vez: el Apéndice B del libro de Richard Szeliski, Computer Vision (E- gratis) (las primeras 4 páginas, en realidad, aunque estas enlazan con algunos buenos ejemplos también).

— GeoMatt22

Hace algunos años escribí un artículo sobre esto para mis alumnos (en español), así que puedo intentar reescribir esas explicaciones aquí. Examinaré IRLS (mínimos cuadrados repesados de forma iterativa) a través de una serie de ejemplos de complejidad creciente. Para el primer ejemplo, necesitamos el concepto de una familia de escala de ubicación. Deje ser una función de densidad centrada en cero en algún sentido. Podemos construir una familia de densidades definiendo donde es un parámetro de escala y $f_0$

f (x) = f (x; μ, σ) = \frac{1}{σ} f_{0} (\frac{x - μ}{σ})

$f(x)= f(x;\mu,\sigma)= \frac{1}{\sigma} f_0\left(\frac{x-\mu}{\sigma}\right)$

σ > 0

$\sigma > 0$

μ

$\mu$ es un parámetro de ubicación En el modelo de error de medición, donde el término de error habitual se modela como una distribución normal, en lugar de esa distribución normal podemos usar una familia de escala de ubicación como se construyó anteriormente. Cuando es la distribución normal estándar, la construcción anterior da la familia .

f_{0}

$f_0$

N (μ, σ)

$\text{N}(\mu, \sigma)$

Ahora usaremos IRLS en algunos ejemplos simples. Primero encontraremos los estimadores de ML (probabilidad máxima) en el modelo con la densidad la distribución de Cauchy la familia de ubicaciones (por lo que esta es una familia de ubicaciones). Pero primero alguna notación. El estimador de mínimos cuadrados ponderados de viene dado por donde es algunos pesos. Veremos que el estimador ML de puede expresarse de la misma forma, con

Y_{1}, Y_{2}, \dots, Y_{n} i.i.d

$Y_1,Y_2,\ldots,Y_n \hspace{1em} \text{i.i.d}$

f (y) = \frac{1}{π} \frac{1}{1 + (y - μ)^{2}}, y \in R,

$f(y)= \frac{1}{\pi} \frac{1}{1+(y-\mu)^2},\hspace{1em} y\in{\mathbb R},$

μ

$\mu$

μ

$\mu$

μ^{*} = \frac{\sum_{i = 1}^{n} w_{i} y_{i}}{\sum_{i = 1}^{n} w_{i}} .

$\mu^{\ast} = \frac{\sum_{i=1}^n w_i y_i} {\sum_{i=1}^n w_i}.$

w_{i}

$w_i$

μ

$\mu$

w_{i}

$w_i$ alguna función de los residuos La función de probabilidad viene dada por y la función de verosimilitud viene dada por Su derivada con respecto a es donde . Escribir

ϵ_{i} = y_{i} - \hat{μ} .

$\epsilon_i = y_i-\hat{\mu}.$

L (y; μ) = {(\frac{1}{π})}^{n} \prod_{i = 1}^{n} \frac{1}{1 + (y_{i} - μ)^{2}}

$L(y;\mu)= \left(\frac{1}{\pi}\right)^n \prod_{i=1}^n \frac{1}{1+(y_i-\mu)^2}$

l (y) = - n \log (π) - \sum_{i = 1}^{n} \log (1 + (y_{i} - μ)^{2}) .

$l(y)= -n \log(\pi) - \sum_{i=1}^n \log\left(1+(y_i-\mu)^2\right).$

μ

$\mu$

\begin{array}{rcl} \frac{\partial l (y)}{\partial μ} & = & 0 - \sum \frac{\partial}{\partial μ} \log (1 + (y_{i} - μ)^{2}) \\ = & - \sum \frac{2 (y_{i} - μ)}{1 + (y_{i} - μ)^{2}} \cdot (- 1) \\ = & \sum \frac{2 ϵ_{i}}{1 + ϵ_{i}^{2}} \end{array}

$\begin{eqnarray} \frac{\partial l(y)}{\partial \mu}&=& 0-\sum \frac{\partial}{\partial \mu} \log\left(1+(y_i-\mu)^2\right) \nonumber \\ &=& -\sum \frac{2(y_i-\mu)}{1+(y_i-\mu)^2}\cdot (-1) \nonumber \\ &=& \sum \frac{2 \epsilon_i}{1+\epsilon_i^2} \nonumber \end{eqnarray}$

ϵ_{i} = y_{i} - μ

$\epsilon_i=y_i-\mu$

f_{0} (ϵ) = \frac{1}{π} \frac{1}{1 + ϵ^{2}}

$f_0(\epsilon)= \frac{1}{\pi} \frac{1}{1+\epsilon^2}$ y , obtenemos Encontramos donde usamos la definición

f_{0}^{'} (ϵ) = \frac{1}{π} \frac{- 1 \cdot 2 ϵ}{(1 + ϵ^{2})^{2}}

$f_0'(\epsilon)=\frac{1}{\pi} \frac{-1\cdot 2 \epsilon}{(1+\epsilon^2)^2}$

\frac{f_{0}^{'} (ϵ)}{f_{0} (ϵ)} = \frac{\frac{- 1 \cdot 2 ϵ}{(1 + ϵ^{2})^{2}}}{\frac{1}{1 + ϵ^{2}}} = - \frac{2 ϵ}{1 + ϵ^{2}} .

$\frac{f_0'(\epsilon)}{f_0(\epsilon)} = \frac{\frac{-1 \cdot2\epsilon}{(1+\epsilon^2)^2}} {\frac{1}{1+\epsilon^2}} = -\frac{2\epsilon}{1+\epsilon^2}.$

\begin{array}{rcl} \frac{\partial l (y)}{\partial μ} & = & - \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \\ = & - \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) \cdot (- ϵ_{i}) \\ = & \sum w_{i} ϵ_{i} \end{array}

$\begin{eqnarray} \frac {\partial l(y)} {\partial \mu} & =& -\sum \frac {f_0'(\epsilon_i)} {f_0(\epsilon_i)} \nonumber \\ &=& -\sum \frac {f_0'(\epsilon_i)} {f_0(\epsilon_i)} \cdot \left(-\frac{1}{\epsilon_i}\right) \cdot (-\epsilon_i) \nonumber \\ &=& \sum w_i \epsilon_i \nonumber \end{eqnarray}$

w_{i} = \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) = \frac{- 2 ϵ_{i}}{1 + ϵ_{i}^{2}} \cdot (- \frac{1}{ϵ_{i}}) = \frac{2}{1 + ϵ_{i}^{2}} .

$w_i= \frac{f_0'(\epsilon_i)} {f_0(\epsilon_i)} \cdot \left(-\frac{1}{\epsilon_i}\right) = \frac{-2 \epsilon_i} {1+\epsilon_i^2} \cdot \left(-\frac{1}{\epsilon_i}\right) = \frac{2}{1+\epsilon_i^2}.$ Recordando que obtenemos la ecuación que es la ecuación de estimación de IRLS. Tenga en cuenta que

ϵ_{i} = y_{i} - μ

$\epsilon_i=y_i-\mu$

\sum w_{i} y_{i} = μ \sum w_{i},

$\sum w_i y_i = \mu \sum w_i,$

Los pesos son siempre positivos. $w_i$
Si el residuo es grande, le damos menos peso a la observación correspondiente.

Para calcular el estimador de ML en la práctica, necesitamos un valor inicial , podríamos usar la mediana, por ejemplo. Usando este valor calculamos los residuos y los pesos El nuevo valor de viene dado por Continuando de esta manera, definimos y El valor estimado en el paso del algoritmo se convierte en $\hat{\mu}^{(0)}$

ϵ_{i}^{(0)} = y_{i} - {\hat{μ}}^{(0)}

$\epsilon_i^{(0)} = y_i - \hat{\mu}^{(0)}$

w_{i}^{(0)} = \frac{2}{1 + ϵ_{i}^{(0)}} .

$w_i^{(0)} = \frac{2}{1+\epsilon_i^{(0)} }.$

\hat{μ}

$\hat{\mu}$

{\hat{μ}}^{(1)} = \frac{\sum w_{i}^{(0)} y_{i}}{\sum w_{i}^{(0)}} .

$\hat{\mu}^{(1)} = \frac{\sum w_i^{(0)} y_i} {\sum w_i^{(0)} }.$

ϵ_{i}^{(j)} = y_{i} - {\hat{μ}}^{(j)}

$\epsilon_i^{(j)} = y_i- \hat{\mu}^{(j)}$

w_{i}^{(j)} = \frac{2}{1 + ϵ_{i}^{(j)}} .

$w_i^{(j)} = \frac{2}{1+\epsilon_i^{(j)} }.$

j + 1

$j+1$

{\hat{μ}}^{(j + 1)} = \frac{\sum w_{i}^{(j)} y_{i}}{\sum w_{i}^{(j)}} .

$\hat{\mu}^{(j+1)} = \frac{\sum w_i^{(j)} y_i} {\sum w_i^{(j)} }.$ Continuando hasta que la secuencia converja.

{\hat{μ}}^{(0)}, {\hat{μ}}^{(1)}, \dots, {\hat{μ}}^{(j)}, \dots

$\hat{\mu}^{(0)}, \hat{\mu}^{(1)}, \ldots, \hat{\mu}^{(j)}, \ldots$

Ahora estudiamos este proceso con una ubicación más general y una familia de escalas, , con menos detalles. Deje que sean independientes con la densidad anterior. Defina también . La función de verosimilitud es Al escribir , tenga en cuenta que y Cálculo de la derivada de verosimilitud $f(y)= \frac{1}{\sigma} f_0(\frac{y-\mu}{\sigma})$ $Y_1,Y_2,\ldots,Y_n$ $\epsilon_i=\frac{y_i-\mu}{\sigma}$

l (y) = - \frac{n}{2} \log (σ^{2}) + \sum \log (f_{0} (\frac{y_{i} - μ}{σ})) .

$l(y)= -\frac{n}{2}\log(\sigma^2) + \sum \log(f_0\left(\frac{y_i-\mu}{\sigma}\right)).$

ν = σ^{2}

$\nu=\sigma^2$

\frac{\partial ϵ_{i}}{\partial μ} = - \frac{1}{σ}

$\frac{\partial \epsilon_i}{\partial \mu} = -\frac{1}{\sigma}$

\frac{\partial ϵ_{i}}{\partial ν} = (y_{i} - μ) {(\frac{1}{\sqrt{ν}})}^{'} = (y_{i} - μ) \cdot \frac{- 1}{2 σ^{3}} .

$\frac{\partial \epsilon_i}{\partial \nu} = (y_i-\mu)\left(\frac{1}{\sqrt{\nu}}\right)' = (y_i-\mu)\cdot \frac{-1}{2 \sigma^3}.$

\frac{\partial l (y)}{\partial μ} = \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot \frac{\partial ϵ_{i}}{\partial μ} = \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{σ}) = - \frac{1}{σ} \sum \frac{f_{o}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) (- ϵ_{i}) = \frac{1}{σ} \sum w_{i} ϵ_{i}

$\frac{\partial l(y)}{\partial \mu} = \sum \frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \frac{\partial \epsilon_i}{\partial \mu} = \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot\left(-\frac{1}{\sigma}\right)= -\frac{1}{\sigma}\sum\frac{f_o'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \left(-\frac{1}{\epsilon_i}\right)(-\epsilon_i) = \frac{1}{\sigma}\sum w_i \epsilon_i$ e igualar esto a cero da la misma ecuación de estimación que el primer ejemplo. Luego buscando un estimador para :

σ^{2}

$\sigma^2$

\begin{array}{rcl} \frac{\partial l (y)}{\partial ν} & = & - \frac{n}{2} \frac{1}{ν} + \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot \frac{\partial ϵ_{i}}{\partial ν} \\ = & - \frac{n}{2} \frac{1}{ν} + \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{(y_{i} - μ)}{2 σ^{3}}) \\ = & - \frac{n}{2} \frac{1}{ν} - \frac{1}{2} \frac{1}{σ^{2}} \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot ϵ_{i} \\ = & - \frac{n}{2} \frac{1}{ν} - \frac{1}{2} \frac{1}{ν} \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) (- ϵ_{i}) \cdot ϵ_{i} \\ = & - \frac{n}{2} \frac{1}{ν} + \frac{1}{2} \frac{1}{ν} \sum w_{i} ϵ_{i}^{2} \overset{!}{=} 0. \end{array}

$\begin{eqnarray} \frac{\partial l(y)}{\partial \nu} &=& -\frac{n}{2}\frac{1}{\nu} + \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \frac{\partial \epsilon_i}{\partial\nu} \nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}+\sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)} \cdot \left(-\frac{(y_i-\mu)}{2\sigma^3}\right) \nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu} - \frac{1}{2}\frac{1}{\sigma^2} \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \epsilon_i\nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}-\frac{1}{2}\frac{1}{\nu} \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \left(-\frac{1}{\epsilon_i}\right) (-\epsilon_i)\cdot\epsilon_i\nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}+\frac{1}{2}\frac{1}{\nu}\sum w_i \epsilon_i^2 \stackrel{!}{=} 0. \nonumber \end{eqnarray}$ que conduce al estimador El algoritmo iterativo anterior también se puede utilizar en este caso.

\hat{σ^{2}} = \frac{1}{n} \sum w_{i} (y_{i} - \hat{μ})^{2} .

$\hat{\sigma^2} = \frac{1}{n}\sum w_i (y_i-\hat{\mu})^2.$

A continuación damos un ejemplo numérico usando R, para el modelo exponencial doble (con escala conocida) y con datos y <- c(-5,-1,0,1,5). Para estos datos, el valor verdadero del estimador ML es 0. El valor inicial será mu <- 0.5. Una pasada del algoritmo es

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

con esta función puedes experimentar haciendo las iteraciones "a mano". Luego, el algoritmo iterativo puede hacerse

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

Ejercicio: si el modelo es una distribución con el parámetro de escala muestre que las iteraciones están dadas por el peso Ejercicio: si la densidad es logística, muestre que los pesos están dados por $t_k$ $\sigma$

w_{i} = \frac{k + 1}{k + ϵ_{i}^{2}} .

$w_i = \frac{k+1}{k+\epsilon_i^2}.$

w (ϵ) = \frac{1 - e^{ϵ}}{1 + e^{ϵ}} \cdot - \frac{1}{ϵ} .

$w(\epsilon) = \frac{ 1-e^\epsilon}{1+e^\epsilon} \cdot - \frac{1}{\epsilon}.$

Por el momento lo dejaré aquí, continuaré esta publicación.

— kjetil b halvorsen
fuente

wow, gran introducción suave! pero siempre se está refiriendo a un único parámetro para todas las instancias y las fuentes que hablan de un diferente por instancia. ¿Es esto solo una modificación trivial?

u

$u$

u_{i}

$u_i$

— ihadanny

¡Agregaré más a esto, justo a tiempo! Las ideas siguen siendo las mismas, pero los detalles se involucran más.

— kjetil b halvorsen

vendrá a eso!

— kjetil b halvorsen

Y gracias por el ejercicio que muestra los pesos para la densidad logística. Lo hice y aprendí mucho a través del proceso. No conozco la distribución , no pude encontrar nada al respecto ...

t_{k}

$t_k$

— ihadanny

¿te importaría escribir una publicación de blog en algún lugar continuando esta explicación? realmente útil para mí y estoy seguro que será para otros ...

— ihadanny