¿Cómo hacer una estimación, cuando solo hay estadísticas de resumen disponibles?

Esto está en parte motivado por la siguiente pregunta y la discusión que la sigue.

Supongamos que se observa la muestra iid, $X_i\sim F(x,\theta)$ . El objetivo es estimar $\theta$ . Pero la muestra original no está disponible. En cambio, tenemos algunas estadísticas de la muestra . Supongamos que es fijo. ¿Cómo estimamos ? ¿Cuál sería el estimador de máxima verosimilitud en este caso? $T_1,...,T_k$ $k$ $\theta$

estimation maximum-likelihood

— mpiktas
fuente

Si para una función conocida

T_{i} = f (X_{i})

$T_i=f(X_i)$

f

$f$ entonces puede escribir la distribución de

T_{i}

$T_i$ y el estimador de máxima verosimilitud se deriva de la manera habitual. Pero no has precisado cuáles son los

T_{i}

$T_i$ ?

— Stéphane Laurent

Estoy interesado en el caso cuando

T_{i} = f (X_{1}, . . ., X_{n})

$T_i=f(X_1,...,X_n)$ para conocida

f

$f$ . A esto me refería cuando dije que

T_{i}

$T_i$ son estadísticas de muestra.

— mpiktas

Entonces, ¿cuál es la diferencia entre

T_{i}

$T_i$ y

T_{j}

$T_j$ ?

— Stéphane Laurent

Lo siento, eso debería haber sido

, no uno

. Tenemos varias funciones

f_{i}

$f_i$

f

$f$

f_{i}

$f_i$ , que toman como argumento toda la muestra.

— mpiktas

¿No es para esto que se diseñó la entropía máxima?

— probabilidadislogic

Respuestas:

En este caso, puede considerar una aproximación ABC de la probabilidad (y, en consecuencia, del MLE ) bajo el siguiente supuesto / restricción:

Suposición. El tamaño de muestra original es conocido. $n$

Esta no es una suposición descabellada dado que la calidad, en términos de convergencia, de los estimadores frecuentistas depende del tamaño de la muestra, por lo tanto, no se pueden obtener estimadores arbitrariamente buenos sin conocer el tamaño de la muestra original.

La idea es generar una muestra a partir de la distribución posterior de y, para producir una aproximación de la MLE , puede utilizar una técnica de muestreo importante como en [1] o considerar un uniforme previo en con el apoyo de un establecido como en [2] . $\theta$ $\theta$

Voy a describir el método en [2]. En primer lugar, permítanme describir la muestra de ABC.

Muestra de ABC

Sea el modelo que genera la muestra donde es un parámetro (a estimar), es un estadístico (una función de la muestra) y es el estadístico observado, en la jerga ABC esto se llama estadística de resumen , será una métrica, una distribución previa en y una tolerancia. Luego, la muestra de rechazo ABC se puede implementar de la siguiente manera. $f(\cdot\vert\theta)$ $\theta \in \Theta$ $T$ $T_0$ $\rho$ $\pi(\theta)$ $\theta$ $\epsilon>0$

Muestra de de . $\theta^*$ $\pi(\cdot)$
Genere una muestra de tamaño del modelo $\bf{x}$ $n$ . $f(\cdot\vert\theta^*)$
Calcule . $T^*=T({\bf x})$
Si , acepte como una simulación desde la parte posterior de . $\rho(T^*,T_0)<\epsilon$ $\theta^*$ $\theta$

Este algoritmo genera una muestra aproximada de la distribución posterior de dado $\theta$ $T({\bf x})=T_0$ . Por lo tanto, el mejor escenario es cuando la estadística es suficiente pero se pueden usar otras estadísticas. Para una descripción más detallada de esto, vea este documento . $T$

Ahora, en un marco general, si uno usa un uniforme previo que contiene el MLE en su soporte, entonces el máximo a posteriori (MAP) coincide con el estimador de máxima verosimilitud (MLE). Por lo tanto, si considera un uniforme apropiado antes en el Sampler ABC, puede generar una muestra aproximada de una distribución posterior cuyo MAP coincida con el MLE. El paso restante consiste en estimar este modo. Este problema se ha discutido en CV, por ejemplo en "Estimación computacionalmente eficiente del modo multivariante" .

Un ejemplo de juguete

Let ser una muestra de un y supongamos que la única información disponible a partir de esta muestra es $(x_1,...,x_n)$ $N(\mu,1)$ . Seala métrica euclidiana eny. El siguiente código R muestra cómo obtener un MLE aproximado usando los métodos descritos anteriormente usando una muestra simulada cony, una muestra de la distribución posterior de tamaño, un uniforme previo paraon, y un estimador de densidad del núcleo para la estimación del modo de la muestra posterior (MAP = MLE). $\bar{x}=\dfrac{1}{n}\sum_{j=1}^n x_j$ $\rho$ ${\mathbb R}$ $\epsilon=0.001$ $n=100$ $\mu=0$ $1000$ $\mu$ $(-0.3,0.3)$

rm(list=ls())

# Simulated data
set.seed(1)
x = rnorm(100)

# Observed statistic
T0=mean(x)

# ABC Sampler using a uniform prior 

N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1

while(i<N+1){
u = runif(1,-0.3,0.3)
t.samp = rnorm(100,u,1)
Ts = mean(t.samp)
if(abs(Ts-T0)<eps){
ABCsamp[i]=u
i=i+1
print(i)
}
}

# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]

Como puede ver, usando una tolerancia pequeña obtenemos una muy buena aproximación del MLE (que en este ejemplo trivial se puede calcular a partir de la estadística dado que es suficiente). Es importante notar que la elección del resumen estadístico es crucial. Los cuantiles suelen ser una buena opción para la estadística de resumen, pero no todas las opciones producen una buena aproximación. Puede darse el caso de que la estadística resumida no sea muy informativa y que la calidad de la aproximación sea pobre, lo cual es bien conocido en la comunidad ABC.

Actualización: recientemente se publicó un enfoque similar en Fan et al. (2012) . Vea esta entrada para una discusión sobre el documento.

— Comunidad
fuente

(+1) Para indicar el resultado correcto sobre la relación entre MLE y MAP y para la advertencia en el último párrafo (entre otras razones). Para que esa advertencia sea más explícita, este enfoque (¡o cualquier otro!) Fallará miserablemente si las estadísticas disponibles son auxiliares o casi. Uno puede considerar su ejemplo de juguete y

, por ejemplo.

T = \sum_{i} (X_{i} - \bar{X})^{2}

$T = \sum_i (X_i - \bar X)^2$

— cardenal

+1 @procrastinator Iba a decir simplemente sí, puede usar las estadísticas suficientes si están disponibles para su modelo. Pero sus amplias respuestas parecen haber cubierto eso.

— Michael R. Chernick

Una pregunta simple, usted menciona que el uniforme anterior debe contener MLE en su soporte. Pero MLE es una variable aleatoria que solo está limitada estocásticamente, es decir, puede estar fuera de cualquier conjunto limitado con probabilidad positiva.

— mpiktas

@mpiktas Para una muestra específica, debe elegir el soporte apropiado del uniforme antes. Esto puede cambiar si cambia la muestra. Es importante tener en cuenta que este no es un procedimiento bayesiano, solo lo estamos utilizando como método numérico, por lo tanto, no hay ningún problema en jugar con la elección del anterior. Cuanto más pequeño sea el soporte del prior, mejor. Esto aumentaría la velocidad de la muestra de ABC, pero cuando su información es vaga en el sentido de que no tiene una pista confiable sobre dónde se encuentra el MLE, es posible que necesite un soporte más grande (y pagará el precio).

@mpiktas En el ejemplo del juguete, puede usar, por ejemplo, un uniforme previo con soporte en

o un uniforme anterior con soporte en

obteniendo los mismos resultados pero con tasas de aceptación extremadamente diferentes. La elección de este soporte es ad hoc y es imposible llegar a un propósito general anterior dado que el MLE no está limitado estocásticamente, como usted menciona. Esta elección puede considerarse como una palanca del método que debe ajustarse en cada caso particular.

(- 1000000, 1000000)

$(-1000000,1000000)$

(0.1, 0.15)

$(0.1,0.15)$

Todo depende de si o no la distribución conjunta de los 's se conoce. Si es, por ejemplo, entonces puede realizar una estimación de máxima verosimilitud basada en esta distribución conjunta. Tenga en cuenta que, a menos que sea suficiente, esto casi siempre será una probabilidad máxima diferente que cuando se usan los datos sin procesar $T_i$

(T_{1}, \dots, T_{k}) \sim g (t_{1}, \dots, t_{k} | θ, n)

$(T_1,\ldots,T_k)\sim g(t_1,\ldots,t_k|\theta,n)$

(T_{1}, \dots, T_{k})

$(T_1,\ldots,T_k)$

(X_{1}, \dots, X_{n})

$(X_1,\ldots,X_n)$ . Será necesariamente menos eficiente, con una mayor variación asintótica.

Si la distribución conjunta anterior con densidad no está disponible, la solución propuesta por Procrastinator es bastante apropiada. $g$

— Xi'an
fuente

El estimador de máxima verosimilitud (frecuentista) es el siguiente:

Para en la familia exponencial, y si sus estadísticas son suficientes su probabilidad de ser maximizado siempre se puede escribir en la forma: donde es el producto escalar, es el vector de suf. estadísticas y y $F$

l (θ | T) = \exp (- ψ (θ) + ⟨ T, ϕ (θ) ⟩),

$l(\theta| T) = \exp\left( -\psi(\theta) + \langle T,\phi(\theta) \rangle \right),$

⟨ \cdot, \cdot ⟩

$\langle \cdot, \cdot\rangle$

T

$T$

ψ (\cdot)

$\psi(\cdot)$

ϕ (\cdot)

$\phi(\cdot)$ son continuos dos veces diferenciables.

La forma en que usted maximiza la probabilidad depende principalmente de la posibilidad de escribir la probabilidad analíticamente de manera manejable. Si esto es posible, podrá considerar algoritmos de optimización generales (newton-raphson, simplex ...). Si no tiene una probabilidad manejable, puede que le resulte más fácil calcular una expectación condicional como en el algoritmo EM, que también generará estimaciones de probabilidad máxima bajo hipótesis bastante asequibles.

Mejor

— julien stirnemann
fuente

Para los problemas que me interesan, la capacidad de análisis no es posible.

— mpiktas

La razón de la no trazabilidad condiciona el esquema de optimización. Sin embargo, las extensiones de EM generalmente permiten evitar la mayoría de estas razones. No creo que pueda ser más específico en mis sugerencias sin ver el modelo en sí

— julien stirnemann