El objetivo del ajuste de máxima verosimilitud es determinar los parámetros de alguna distribución que mejor se ajuste a los datos y, en general, cómo dichos parámetros pueden variar con las covariables. En el caso de GLMs, queremos determinar los parámetrosθ de alguna distribución familiar exponencial, y cómo son función de algunas covariables X.
Para cualquier distribución de probabilidad en la familia exponencial sobredispersada, la media μ se garantiza que está relacionado con el parámetro de la familia exponencial canónica θ a través de la función de enlace canónico, θ=g(μ). Incluso podemos determinar una fórmula general paragy típicamente gEs invertible también. Si simplemente establecemosμ=g−1(θ) y θ=Xβ, obtenemos automáticamente un modelo de cómo μ y θ cambia con X, sin importar con qué distribución estamos tratando, y ese modelo puede ajustarse fácil y confiablemente a los datos mediante la optimización convexa . La respuesta de Matt muestra cómo funciona para la distribución de Bernoulli, pero la verdadera magia es que funciona para todas las distribuciones de la familia.
El modo no disfruta de estas propiedades. De hecho, como señala Cliff AB, es posible que el modo ni siquiera tenga una relación biyectiva con el parámetro de distribución, por lo que la inferencia del modo es de una potencia muy limitada. Tome la distribución de Bernoulli, por ejemplo. Su modo es 0 o 1, y conocer el modo solo te dice sip, la probabilidad de 1 es mayor o menor que 1/2. En contraste, la media te dice exactamente quép es.
Ahora, para aclarar cierta confusión en la pregunta: la probabilidad máxima no se trata de encontrar el modo de una distribución, porque la probabilidad no es la misma función que la distribución. La probabilidad implica la distribución de su modelo en su fórmula, pero ahí es donde terminan las similitudes. La función de probabilidadL(θ) toma un valor de parámetro θcomo entrada, y le dice cuán "probable" es todo su conjunto de datos , dada la distribución del modeloθ. La distribución del modelo.fθ(y) depende de θ, pero como función, toma un valor y como entrada y le dice con qué frecuencia una muestra aleatoria de esa distribución será igual y. El máximo deL(θ) y el modo de fθ(y) No son lo mismo.
Tal vez sea útil ver la fórmula de probabilidad. En el caso de datos IIDy1,y2,…,yn, tenemos
L(θ)=∏i=1nfθ(yi)
Los valores de
yison todos fijos: son los valores de sus datos. La máxima probabilidad es encontrar el
θ que maximiza
L(θ). Encontrar el modo de distribución sería encontrar el
y que maximiza
fθ(y), que no es lo que queremos:
y se fija en la probabilidad, no una variable.
Por lo tanto, encontrar el máximo de la función de probabilidad no es, en general, lo mismo que encontrar el modo de distribución del modelo. (Es el modo de otra distribución, si le preguntas a un Bayesiano objetivo, ¡pero esa es una historia muy diferente!)