Estoy lidiando con esta pregunta yo mismo en este momento. Aquí hay un resultado que puede ser útil. Considere el modelo lineal.
y=Xβ+ϵ,ϵ∼N(0,σ2)
donde y β y σ 2 son los parámetros de interés. La probabilidad conjunta esy∈Rn,β∈Rp,βσ2
L(β,σ2)=(2πσ2)−n/2exp(−||y−Xβ||22σ2)
Optimizar los rendimientos de probabilidad conjunta
β^=X+y
σ^2=1n||r||2
donde es la pseudoinverse de X y r = y - X β es el vector residual en forma. Nótese que en σ 2 tenemos 1 / n en lugar de los grados de libertad familiares corregidos relación de 1 / ( n - p )X+Xr=y−Xβ^σ^21/n1/(n−p) . Se sabe que este estimador está sesgado en el caso de muestras finitas.
Ahora supongamos que en lugar de optimizar tanto como σ 2 , integramos β out y estimamos σ 2 a partir de la probabilidad integrada resultante:βσ2βσ2
σ^2=maxσ2∫RpL(β,σ2)dβ
Usando álgebra lineal elemental y la fórmula integral gaussiana, puede mostrar que
σ^2=1n−p||r||2
Esto tiene la corrección de grados de libertad que lo hace imparcial y generalmente favorecido sobre la estimación conjunta de LD.
A partir de este resultado, uno podría preguntarse si hay algo inherentemente ventajoso sobre la probabilidad integrada, pero no conozco ningún resultado general que responda a esa pregunta. El consenso parece ser que el LD integrado es mejor para dar cuenta de la incertidumbre en la mayoría de los problemas de estimación. En particular, si está estimando una cantidad que depende de otras estimaciones de parámetros (incluso implícitamente), la integración sobre los otros parámetros explicará mejor sus incertidumbres.