En este caso, puede considerar una aproximación ABC de la probabilidad (y, en consecuencia, del MLE ) bajo el siguiente supuesto / restricción:
Suposición. El tamaño de muestra original es conocido.n
Esta no es una suposición descabellada dado que la calidad, en términos de convergencia, de los estimadores frecuentistas depende del tamaño de la muestra, por lo tanto, no se pueden obtener estimadores arbitrariamente buenos sin conocer el tamaño de la muestra original.
La idea es generar una muestra a partir de la distribución posterior de y, para producir una aproximación de la MLE , puede utilizar una técnica de muestreo importante como en [1] o considerar un uniforme previo en θ con el apoyo de un establecido como en [2] .θθ
Voy a describir el método en [2]. En primer lugar, permítanme describir la muestra de ABC.
Muestra de ABC
Sea el modelo que genera la muestra donde θ ∈ Θ es un parámetro (a estimar), T es un estadístico (una función de la muestra) y T 0 es el estadístico observado, en la jerga ABC esto se llama estadística de resumen , ρ será una métrica, π ( θ ) una distribución previa en θ y ϵ > 0 una tolerancia. Luego, la muestra de rechazo ABC se puede implementar de la siguiente manera.f(⋅|θ)θ∈ΘTT0ρπ(θ)θϵ>0
- Muestra de de π ( ⋅ ) .θ∗π(⋅)
- Genere una muestra de tamaño n del modelo f ( ⋅ |xn .f(⋅|θ∗)
- Calcule .T∗=T(x)
- Si , acepte θ ∗ como una simulación desde la parte posterior de θ .ρ(T∗,T0)<ϵθ∗θ
Este algoritmo genera una muestra aproximada de la distribución posterior de dado T ( x ) = T 0θT(x)=T0 . Por lo tanto, el mejor escenario es cuando la estadística es suficiente pero se pueden usar otras estadísticas. Para una descripción más detallada de esto, vea este documento .T
Ahora, en un marco general, si uno usa un uniforme previo que contiene el MLE en su soporte, entonces el máximo a posteriori (MAP) coincide con el estimador de máxima verosimilitud (MLE). Por lo tanto, si considera un uniforme apropiado antes en el Sampler ABC, puede generar una muestra aproximada de una distribución posterior cuyo MAP coincida con el MLE. El paso restante consiste en estimar este modo. Este problema se ha discutido en CV, por ejemplo en "Estimación computacionalmente eficiente del modo multivariante" .
Un ejemplo de juguete
Let ser una muestra de un N ( μ , 1 ) y supongamos que la única información disponible a partir de esta muestra es ˉ x = 1(x1,...,xn)N(μ,1). Seaρla métrica euclidiana enRyϵ=0.001. El siguiente código R muestra cómo obtener un MLE aproximado usando los métodos descritos anteriormente usando una muestra simulada conn=100yμ=0, una muestra de la distribución posterior de tamaño1000, un uniforme previo paraμon(-0.3,0.3), y un estimador de densidad del núcleo para la estimación del modo de la muestra posterior (MAP = MLE).x¯=1n∑nj=1xjρRϵ=0.001n=100μ=01000μ(−0.3,0.3)
rm(list=ls())
# Simulated data
set.seed(1)
x = rnorm(100)
# Observed statistic
T0=mean(x)
# ABC Sampler using a uniform prior
N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1
while(i<N+1){
u = runif(1,-0.3,0.3)
t.samp = rnorm(100,u,1)
Ts = mean(t.samp)
if(abs(Ts-T0)<eps){
ABCsamp[i]=u
i=i+1
print(i)
}
}
# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]
Como puede ver, usando una tolerancia pequeña obtenemos una muy buena aproximación del MLE (que en este ejemplo trivial se puede calcular a partir de la estadística dado que es suficiente). Es importante notar que la elección del resumen estadístico es crucial. Los cuantiles suelen ser una buena opción para la estadística de resumen, pero no todas las opciones producen una buena aproximación. Puede darse el caso de que la estadística resumida no sea muy informativa y que la calidad de la aproximación sea pobre, lo cual es bien conocido en la comunidad ABC.
Actualización: recientemente se publicó un enfoque similar en Fan et al. (2012) . Vea esta entrada para una discusión sobre el documento.