Convergencia del algoritmo EM con distribución de mezcla bivariada

Tengo un modelo de mezcla que quiero encontrar el estimador de máxima verosimilitud de un conjunto de datos dado y un conjunto de datos observados parcialmente . He implementado tanto el paso E (calculando la expectativa de dado y los parámetros actuales ), como el paso M, para minimizar la probabilidad de registro negativa dada la esperada . $x$ $z$ $z$ $x$ $\theta^k$ $z$

Como lo he entendido, la probabilidad máxima está aumentando para cada iteración, esto significa que la probabilidad de registro negativa debe estar disminuyendo para cada iteración. Sin embargo, a medida que repito, el algoritmo no produce valores decrecientes de la probabilidad logarítmica negativa. En cambio, puede estar disminuyendo y aumentando. Por ejemplo, estos fueron los valores de la probabilidad logarítmica negativa hasta la convergencia:

ingrese la descripción de la imagen aquí

¿Hay aquí que he entendido mal?

Además, para los datos simulados cuando realizo la máxima probabilidad de las verdaderas variables latentes (no observadas), tengo un ajuste casi perfecto, lo que indica que no hay errores de programación. Para el algoritmo EM, a menudo converge en soluciones claramente subóptimas, particularmente para un subconjunto específico de los parámetros (es decir, las proporciones de las variables de clasificación). Es bien sabido que el algoritmo puede converger a mínimos locales o puntos estacionarios, ¿existe una búsqueda heurística convencional o también para aumentar la probabilidad de encontrar el mínimo (o máximo) global ? Para este problema en particular, creo que hay muchas clasificaciones de fallas porque, de la mezcla bivariada, una de las dos distribuciones toma valores con probabilidad uno (es una mezcla de vidas donde la vida real se encuentra por $T=z T_0 + (1-z)\infty$ donde indica la pertenencia a cualquiera de las distribuciones. El indicador por supuesto, está censurado en el conjunto de datos. $z$ $z$ ingrese la descripción de la imagen aquí

Agregué una segunda cifra para cuando empiezo con la solución teórica (que debería estar cerca de la óptima). Sin embargo, como se puede ver, la probabilidad y los parámetros divergen de esta solución en una que es claramente inferior.

editar: Los datos completos están en la forma donde es un tiempo observado para el sujeto , indica si el tiempo está asociado con un evento real o si está correctamente censurado (1 denota evento y 0 denota censura derecha), es el tiempo de truncamiento de la observación (posiblemente 0) con el indicador de truncamiento y finalmente es el indicador al que pertenece la observación (ya que su bivariado solo necesitamos considerar 0 y 1). $\mathbf{x_i}=(t_i,\delta_i,L_i,\tau_i,z_i)$ $t_i$ $i$ $\delta_i$ $L_i$ $\tau_i$ $z_i$

Para tenemos la función de densidad , de manera similar se asocia con la función de distribución de cola . Para el evento de interés no ocurrirá. Aunque no hay asociada con esta distribución, la definimos como , por lo tanto y . Esto también produce la siguiente distribución completa de la mezcla: $z=1$ $f_z(t)=f(t|z=1)$ $S_z(t)=S(t|z=1)$ $z=0$ $t$ $\inf$ $f(t|z=0)=0$ $S(t|z=0)=1$

$f(t) = \sum_{i=0}^{1}p_if(t|z=i) = pf(t|z=1)$ y $S(t) = 1 - p + pS_z(t)$

Procedemos a definir la forma general de la probabilidad:

$L(\theta;\mathbf{x_i}) = \Pi_i \frac{f(t_i;\theta)^{\delta_i}S(t_i;\theta)^{1-\delta_i}}{S(L_i)^{\tau_i}}$

Ahora, solo se observa parcialmente cuando , de lo contrario, se desconoce. La probabilidad total se convierte en $z$ $\delta=1$

$L(\theta,p;\mathbf{x_i}) = \Pi_i \frac{\big((p f_z(t_i;\theta))^{z_i}\big)^{\delta_i}\big((1-p)^{(1-z_i)}(p S_z(t_i;\theta))^{z_i}\big)^{1-\delta_i}}{\big((1-p)^{(1-z_i)}(p S_z(L_i;\theta))^{z_i}\big)^{\tau_i}}$

donde es el peso de la distribución correspondiente (posiblemente asociado con algunas covariables y sus respectivos coeficientes por alguna función de enlace). En la mayoría de la literatura, esto se simplifica a la siguiente probabilidad $p$

$\sum \Big( z_i \ln(p) + (1-p) \ln(1-p) - \tau_i\big(z_i \ln(p) + (1-z_i)\ln(1-p)\big) + \delta_i z_i f_z(t_i;\theta) + (1-\delta_i) z_i S_z(t_i;\theta) - \tau_i S_z(L_i;\theta)\Big)$

Para el paso M , esta función se maximiza, aunque no en su totalidad en 1 método de maximización. En cambio, no sabemos que esto se pueda separar en partes . $l(\theta,p; \cdot) = l_1(\theta,\cdot) + l_2(p,\cdot)$

Para el paso E k: th + 1 , debemos encontrar el valor esperado de las variables latentes (parcialmente) no observadas . Utilizamos el hecho de que para , entonces . $z_i$ $\delta=1$ $z=1$

$E(z_i|\mathbf{x_i},\theta^{(k)},p^{(k)}) = \delta_i + (1-\delta_i) P(z_i=1;\theta^{(k)},p^{(k)}|\mathbf{x_i})$

Aquí tenemos, por $P(z_i=1;\theta^{(k)},p^{(k)}|\mathbf{x_i}) =\frac{P(\mathbf{x_i};\theta^{(k)},p^{(k)}|z_i=1)P(z_i=1;\theta^{(k)},p^{(k)})}{P(\mathbf{x_i};\theta^{(k)},p^{(k)})}$

lo que nos da $P(z_i=1;\theta^{(k)},p^{(k)}|\mathbf{x_i})=\frac{pS_z(t_i;\theta^{(k)})}{1 - p + pS_z(t_i;\theta^{(k)})}$

(Observe aquí que , por lo que no hay ningún evento observado, por lo tanto, la probabilidad de los datos viene dada por la función de distribución de cola. $\delta_i=0$ $\mathbf{x_i}$

maximum-likelihood mixture expectation-maximization

— Buen chico mike
fuente

¿Podría escribir las variables de nuestro problema desde el principio y sus ecuaciones E y M?

— alberto

Por supuesto, he editado la pregunta con más detalles sobre el paso E y M

— Buen chico Mike

Para aclarar, los valores trazados son el MLE completo dados los valores estimados para los datos incompletos.

— Buen chico Mike

¿Qué es ? No entiendo "aunque no hay t asociada con esta distribución, la definimos como inf ...".

S_{z}

$S_z$

— wij

El algoritmo EM maximiza directamente la probabilidad esperada de datos completos, pero puede garantizar el aumento de la probabilidad de datos observados. ¿Está comprobando el aumento de la probabilidad de datos observados?

— Randel

El objetivo de EM es maximizar la probabilidad de registro de datos observados,

l (θ) = \sum_{i} \ln [\sum_{z} p (x_{i}, z | θ)]

$l(\theta) = \sum_i \ln \left[ \sum_{z} p(x_i, z| \theta) \right]$

Desafortunadamente, esto tiende a ser difícil de optimizar con respecto a . En cambio, EM forma y maximiza repetidamente la función auxiliar $\theta$

Q (θ, θ^{t}) = E_{z | θ^{t}} (\sum_{i} \ln p (x_{i}, z_{i} | θ))

$Q(\theta , \theta^t) = \mathbb{E}_{z|\theta^t} \left (\sum_i \ln p(x_i, z_i| \theta) \right)$

Si maximiza , EM garantiza que $\theta^{t+1}$ $Q(\theta, \theta^t)$

l (θ^{t + 1}) \geq Q (θ^{t + 1}, θ^{t}) \geq Q (θ^{t}, θ^{t}) = l (θ^{t})

$l(\theta^{t+1}) \geq Q(\theta^{t+1}, \theta^t) \geq Q(\theta^t, \theta^t) = l(\theta^t)$

Si desea saber exactamente por qué este es el caso, la Sección 11.4.7 de Aprendizaje automático de Murphy : una perspectiva probabilística ofrece una buena explicación. Si su implementación no satisface estas desigualdades, ha cometido un error en alguna parte. Diciendo cosas como

Tengo un ajuste casi perfecto, lo que indica que no hay errores de programación

es peligroso. Con una gran cantidad de algoritmos de optimización y aprendizaje, es muy fácil cometer errores y aún así obtener respuestas correctas la mayor parte del tiempo. Una intuición que me gusta es que estos algoritmos están destinados a tratar datos desordenados, por lo que no es sorprendente que también traten bien los errores.

En la otra mitad de tu pregunta,

¿Existe una búsqueda convencional heurística o del mismo modo para aumentar la probabilidad de encontrar el mínimo (o máximo) global

El reinicio aleatorio es el enfoque más fácil; Lo más fácil es probablemente el recocido simulado sobre los parámetros iniciales. También he oído hablar de una variante de EM llamada recocido determinista , pero no la he usado personalmente, así que no puedo decirle mucho al respecto.

— Andy Jones
fuente

Buena respuesta (+1). Sería aún mejor si incluyera referencias formales (en particular, una referencia a una fuente parcialmente citada "Aprendizaje automático: una perspectiva probabilística").

— Aleksandr Blekh

Muchas gracias por la respuesta. Descubrí que el algoritmo converge correctamente ahora después de corregir un error en el código, pero solo cuando excluyo mis datos truncados. De lo contrario, se vuelve loco. Creo que esto es el resultado de algunos errores.

— Good Guy Mike

De hecho, el problema es que trato con el "truncamiento heterogéneo", es decir, hay un punto de truncamiento individual para cada observación, en lugar de un umbral de truncamiento unánime para todas las observaciones. Nunca he encontrado o no puedo encontrar esta configuración en la literatura, por lo que no puedo verificar que la estoy resolviendo correctamente. Si por casualidad hubieras visto esta configuración, ¡me encantaría echar un vistazo a esas referencias!

L_{i}

$L_i$

— Good Guy Mike