El método MLE se puede aplicar en casos en los que alguien conoce la forma funcional básica del pdf (por ejemplo, es gaussiano, log-normal, exponencial o lo que sea), pero no los parámetros subyacentes; por ejemplo, no conocen los valores de y en el pdf: o cualquier otro tipo de pdf que estén asumiendo. El trabajo del método MLE es elegir los mejores valores (es decir, los más plausibles) para los parámetros desconocidos, dadas las mediciones de datos particulares que realmente se observaron . Entonces, para responder a su primera pregunta, sí, siempre tiene derecho a preguntarle a alguien quéσ f ( x | μ , σ ) = 1μσx1,x2,x3,. . .
F( x | μ , σ) = 12 πσ2----√Exp[ - ( x - μ )22 σ2]
X1, x2,x3, . . .forma de pdf que están asumiendo para su estimación de máxima probabilidad; de hecho, los valores estimados de los parámetros que le dicen no son significativos a menos que primero comuniquen ese contexto.
El algoritmo EM, como lo he visto aplicado en el pasado, es más bien una especie de meta algoritmo, en el que faltan algunos de los metadatos, y también hay que estimarlo. Entonces, por ejemplo, tal vez tengo un pdf que es una mezcla de varios gaussianos, por ejemplo: Superficialmente, excepto el Además del parámetro de amplitud , esto se parece mucho al problema anterior, pero ¿qué pasa si te digo que ni siquiera sabemos el valor de (es decir, el número de modos en la mezcla gaussiana) y queremos estimar que a partir de las mediciones de datos
F( x | A1, . . . , Anorte, μ1, . . . , μnorte, σ1, . . . σnorte) = ∑k = 1norteUNk2 πσ2k----√Exp[ - ( x - μk)22 σ2k]
UNknorteX1, x2, x3, . . . ¿también?
En este caso, tiene un problema, porque cada posible valor de (esta es la parte "meta" a la que aludía anteriormente) realmente genera un modelo diferente, en cierto sentido. Si , entonces tiene un modelo con tres parámetros ( , , ) mientras que si , entonces tiene un modelo con seis parámetros ( , , , , , ). Los mejores valores de ajuste que obtenga para ( , , ) enN = 1 A 1nortenorte= 1UN1 σ 1 N = 2μ1σ1norte= 2UN1UN2μ1μ2σ1σ2A1μ1σ1N=1 modelo no se puede comparar directamente con los mejores valores de ajuste que obtiene para esos mismos parámetros en el modelo , porque son modelos diferentes con un número diferente de grados de libertad .N=2
El papel del algoritmo EM es proporcionar un mecanismo para hacer ese tipo de comparaciones (por lo general mediante la imposición de una "pena de complejidad" que prefiere los valores más pequeños de ), de modo que podemos elegir el mejor valor para .NN
Entonces, para responder a su pregunta original, el algoritmo EM requiere una especificación menos precisa de la forma del pdf; se podría decir que considera un rango de opciones alternativas (por ejemplo, la opción donde , , , etc.) pero aún así requiere que especifique algo sobre la forma matemática básica de esas opciones: todavía tiene que especificar una "familia" de archivos PDF posibles, en cierto sentido, a pesar de que está dejando que el algoritmo decida por usted qué "miembro" de la familia proporciona el mejor ajuste a los datos.N=1N=2N=3