Actualización recursiva del MLE como nuevo flujo de observaciones en

Pregunta general

Supongamos que tenemos datos de iid , , ... transmiten. Queremos calcular recursivamente la estimación de máxima probabilidad de . Es decir, haber calculado observamos una nueva y deseamos actualizar de manera incremental nuestra estimación sin tener que empezar desde cero. ¿Hay algoritmos genéricos para esto? $x_1$ $x_2$ $\sim f(x\,|\,\boldsymbol{\theta})$ $\boldsymbol{\theta}$

{\hat{θ}}_{n - 1} = \underset{θ \in R^{p}}{\arg max} \prod_{i = 1}^{n - 1} f (x_{i} | θ),

$\hat{\boldsymbol{\theta}}_{n-1}=\underset{\boldsymbol{\theta}\in\mathbb{R}^p}{\arg\max}\prod_{i=1}^{n-1}f(x_i\,|\,\boldsymbol{\theta}),$

x_{n}

$x_n$

{\hat{θ}}_{norte - 1}, X_{norte} \to {\hat{θ}}_{norte}

$\hat{\boldsymbol{\theta}}_{n-1},\,x_n \to \hat{\boldsymbol{\theta}}_{n}$

Ejemplo de juguete

Si $x_1$ , $x_2$ , ... $\sim N(x\,|\,\mu, 1)$ , entonces

{\hat{μ}}_{norte - 1} = \frac{1}{norte - 1} \sum_{yo = 1}^{norte - 1} X_{yo} y {\hat{μ}}_{norte} = \frac{1}{norte} \sum_{yo = 1}^{norte} X_{yo},

$\hat{\mu}_{n-1} = \frac{1}{n-1}\sum\limits_{i=1}^{n-1}x_i\quad\text{and}\quad\hat{\mu}_n = \frac{1}{n}\sum\limits_{i=1}^nx_i,$ entonces

{\hat{μ}}_{n} = \frac{1}{n} [(n - 1) {\hat{μ}}_{n - 1} + x_{n}] .

$\hat{\mu}_n=\frac{1}{n}\left[(n-1)\hat{\mu}_{n-1} + x_n\right].$

maximum-likelihood online

— jcz
fuente

No olvide lo inverso de este problema: actualizar el estimador a medida que se eliminan las observaciones antiguas.

— Hong Ooi

Los mínimos cuadrados recursivos (RLS) son una solución (muy famosa) para una instancia particular de este problema, ¿no es así? En general, creo que podría ser útil analizar la literatura de filtrado estocástico.

— jhin

Respuestas:

Vea el concepto de suficiencia y, en particular, estadísticas mínimas suficientes . En muchos casos, necesita toda la muestra para calcular la estimación en un tamaño de muestra dado, sin una forma trivial de actualizar a partir de una muestra de un tamaño menor (es decir, no hay un resultado general conveniente).

Si la distribución es una familia exponencial (y en algunos otros casos además; el uniforme es un buen ejemplo), hay una buena estadística suficiente que en muchos casos se puede actualizar de la manera que usted busca (es decir, con una serie de distribuciones comúnmente utilizadas, habría Una actualización rápida).

Un ejemplo que no conozco de ninguna manera directa de calcular o actualizar es la estimación de la ubicación de la distribución de Cauchy (por ejemplo, con escala de unidades, para hacer que el problema sea un problema simple de un parámetro). Sin embargo, puede haber una actualización más rápida que simplemente no he notado: no puedo decir que realmente haya hecho más que echarle un vistazo para considerar el caso de actualización.

Por otro lado, con los MLE que se obtienen a través de métodos de optimización numérica, la estimación previa sería en muchos casos un excelente punto de partida, ya que normalmente la estimación anterior estaría muy cerca de la estimación actualizada; en ese sentido, al menos, la actualización rápida a menudo debería ser posible. Sin embargo, incluso este no es el caso general: con funciones de probabilidad multimodal (nuevamente, vea el Cauchy como ejemplo), una nueva observación podría llevar al modo más alto a cierta distancia del anterior (incluso si las ubicaciones de cada uno de los pocos modos más grandes no cambió mucho, cuál es el más alto bien podría cambiar).

— Glen_b -Reinstate a Monica
fuente

¡Gracias! El punto sobre la posibilidad de que MLE cambie de modo a mitad de camino es particularmente útil para comprender por qué esto sería difícil en general.

— jcz

Puede ver esto usted mismo con el modelo Cauchy a escala de unidad anterior y los datos (0.1,0.11,0.12,2.91,2.921,2.933). La probabilidad de registro para la ubicación de los modos está cerca de 0.5 y 2.5, y el pico (ligeramente) más alto es el cercano a 0.5. Ahora haga la siguiente observación 10 y el modo de cada uno de los dos picos apenas se mueve, pero el segundo pico ahora es sustancialmente más alto. El descenso gradual no te ayudará cuando eso suceda, es casi como comenzar de nuevo. Si su población es una mezcla de dos subgrupos de tamaño similar con ubicaciones diferentes, podrían ocurrir tales circunstancias. ...

— ctd

ctd ... incluso en una muestra relativamente grande. En la situación correcta, el cambio de modo puede ocurrir con bastante frecuencia.

— Glen_b -Reinstalar Monica

n

$n$

Sí correcto; Discutí conmigo mismo si discutir eso en la respuesta.

— Glen_b -Reinstalar Monica

En el aprendizaje automático, esto se conoce como aprendizaje en línea .

Como señaló @Glen_b, hay casos especiales en los que el MLE se puede actualizar sin necesidad de acceder a todos los datos anteriores. Como también señala, no creo que haya una solución genérica para encontrar el MLE.

Un enfoque bastante genérico para encontrar la solución aproximada es usar algo como el descenso de gradiente estocástico. En este caso, a medida que entra cada observación, calculamos el gradiente con respecto a esta observación individual y movemos los valores de los parámetros una cantidad muy pequeña en esta dirección. Bajo ciertas condiciones, podemos demostrar que esto convergerá a una vecindad del MLE con alta probabilidad; el vecindario es cada vez más estricto a medida que reducimos el tamaño del paso, pero se requieren más datos para la convergencia. Sin embargo, estos métodos estocásticos en general requieren mucho más trabajo para obtener un buen rendimiento que, por ejemplo, las actualizaciones de formularios cerrados.

— Acantilado
fuente