Christopher Bishop define el valor esperado de la función de probabilidad de registro de datos completos (es decir, suponiendo que se nos dan tanto los datos observables X como los datos latentes Z) de la siguiente manera:
donde se define como:
La idea, como se describe, es considerar un modelo de mezcla gaussiana en el que las matrices de covarianza de los componentes de la mezcla estén dadas por , donde es un parámetro de varianza compartido por todos los componentes, como ese:
entonces, ahora se define como:
El argumento ahora es el siguiente:
si consideramos el límite , vemos que en el denominador el término para el cual es el más pequeño, irá a cero más lentamente y, por lo tanto, las responsabilidades para el punto de datos irán a cero, excepto para el término j, para lo cual la responsabilidad irá a la unidad. Por lo tanto, en este límite, obtenemos una asignación difícil de puntos de datos a grupos, al igual que en el algoritmo medias, de modo que
donde se define como:
Mi pregunta es ¿cómo se sostiene el argumento anterior? A saber, ¿qué significa que un término vaya a cero ? ¿Y cómo llevar el límite en la ecuación resulta en una responsabilidad binaria?