¿Cuál es mejor probabilidad máxima o probabilidad marginal y por qué?


13

Al realizar la regresión, si vamos por la definición de: ¿Cuál es la diferencia entre una probabilidad parcial, probabilidad de perfil y probabilidad marginal?

eso, máxima verosimilitud
Encuentra β y θ que maximiza L (β, θ | datos).

Mientras, probabilidad marginal Integramos
θ a partir de la ecuación de probabilidad explotando el hecho de que podemos identificar la distribución de probabilidad de θ condicional en β.

¿Cuál es la mejor metodología para maximizar y por qué?

Respuestas:


14

Cada uno de estos dará resultados diferentes con una interpretación diferente. El primero encuentra el par , θ que es más probable, mientras que el segundo encuentra el β que es (marginalmente) más probable. Imagine que su distribución se ve así:βθβ

    β=1β=2
θ=10.0 0.2 
θ=20.1 0.2 
θ=30.3 0.2 

Entonces la respuesta de probabilidad máxima es ( θ = 3 ), mientras que la respuesta de probabilidad marginal máxima es β = 2 (ya que, marginando sobre θ , P ( β = 2 ) = 0.6 ).β=1θ=3β=2θP(β=2)=0.6

Yo diría que, en general, la probabilidad marginal es a menudo lo que desea: si realmente no le importan los valores de los parámetros , entonces debería colapsar sobre ellos. Pero, probablemente, en la práctica, estos métodos no arrojarán resultados muy diferentes; si lo hacen, puede indicar cierta inestabilidad subyacente en su solución, por ejemplo, modos múltiples con diferentes combinaciones de β , θ que dan predicciones similares.θβθ


Encontré resultados diferentes para los métodos de probabilidad máxima / marginal y de ahí la pregunta. Diría que los dos resultados en mi caso dan interpretaciones diferentes pero posibles resultados.
Ankit Chiplunkar

5

Estoy lidiando con esta pregunta yo mismo en este momento. Aquí hay un resultado que puede ser útil. Considere el modelo lineal.

y=Xβ+ϵ,ϵN(0,σ2)

donde y β y σ 2 son los parámetros de interés. La probabilidad conjunta esyRn,βRp,βσ2

L(β,σ2)=(2πσ2)n/2exp(||yXβ||22σ2)

Optimizar los rendimientos de probabilidad conjunta

β^=X+y

σ^2=1n||r||2

donde es la pseudoinverse de X y r = y - X β es el vector residual en forma. Nótese que en σ 2 tenemos 1 / n en lugar de los grados de libertad familiares corregidos relación de 1 / ( n - p )X+Xr=yXβ^σ^21/n1/(np) . Se sabe que este estimador está sesgado en el caso de muestras finitas.

Ahora supongamos que en lugar de optimizar tanto como σ 2 , integramos β out y estimamos σ 2 a partir de la probabilidad integrada resultante:βσ2βσ2

σ^2=maxσ2RpL(β,σ2)dβ

Usando álgebra lineal elemental y la fórmula integral gaussiana, puede mostrar que

σ^2=1np||r||2

Esto tiene la corrección de grados de libertad que lo hace imparcial y generalmente favorecido sobre la estimación conjunta de LD.

A partir de este resultado, uno podría preguntarse si hay algo inherentemente ventajoso sobre la probabilidad integrada, pero no conozco ningún resultado general que responda a esa pregunta. El consenso parece ser que el LD integrado es mejor para dar cuenta de la incertidumbre en la mayoría de los problemas de estimación. En particular, si está estimando una cantidad que depende de otras estimaciones de parámetros (incluso implícitamente), la integración sobre los otros parámetros explicará mejor sus incertidumbres.


1
β

1
@whuber I share your concerns and don't have a ready answer, but note that the likelihood being marginalized is just a posterior with a uniform improper prior on β, so I think this is related to the "objective Bayesian" approach. There one does not care when a parameter like β has an improper prior distribution, so long as the posterior is integrable.
Paul

Actually, based on this post and comments therein, I think integrated ML, not marginal ML, is the right term for what we're doing here. Edited accordingly.
Paul

1
+1 I know i'm pretty late to this party but isn't integrating out fixed effects by putting an improper uniform prior on them exactly what REML does, so you've actually just obtained the REML estimate and this df correction is exactly the reason here that REML is better for smaller samples?
jld

@Chaconne yes, this post was motivated by trying to understand REML! I have (almost) no formal statistics education, so deriving this was all new to me.
Paul

4

This is usually not a matter of choice. If we are interested in the estimation of β (e.g. when β is a model hyperparameter and θ is a latent variable) and there is not a single value for θ and instead the distribution of θ in known, we need to integrate out θ. You can think of marginal likelihood as the weighted average of the likelihood for different values of θi weighted by their probability density p(θi). Now that θ has disappeared, using training samples as data, you can optimize the marginal likelihood w.r.t. β.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.