¿Cuáles son algunas aplicaciones ilustrativas de la probabilidad empírica?

He oído hablar de la probabilidad empírica de Owen, pero hasta hace poco no le presté atención hasta que lo encontré en un documento de interés ( Mengersen et al. 2012 ).

En mi esfuerzo por comprenderlo, deduje que la probabilidad de los datos observados se representa como , donde y .

L = \prod_{i} p_{i} = \prod_{i} P (X_{i} = x) = \prod_{i} P (X_{i} \leq x) - P (X_{i} < x)

$L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x)$

\sum_{i} p_{i} = 1

$\sum_i p_i = 1$

p_{i} > 0

$p_i > 0$

Sin embargo, no he podido dar el salto mental que conecta esta representación con cómo se puede usar para hacer inferencias sobre observaciones. ¿Quizás estoy demasiado arraigado en pensar en una probabilidad de parámetros de un modelo?

De todos modos, he estado buscando en Google Académico algún documento que emplee probabilidades empíricas que me ayuden a internalizar el concepto ... sin éxito. Obviamente, está el libro de Art Owen sobre Probabilidad empírica , pero Google Books deja de lado todos los pedazos deliciosos y todavía estoy en el lento proceso de obtener un préstamo entre bibliotecas.

Mientras tanto, ¿alguien puede señalarme amablemente documentos y documentos que ilustren claramente la premisa de la probabilidad empírica y cómo se emplea? ¡Una descripción ilustrativa de EL mismo también sería bienvenida!

— Sameer
fuente

Los econométricos, en particular, se han enamorado de EL. Si está buscando aplicaciones , esa literatura puede ser uno de los mejores lugares para buscar.

— cardenal

Respuestas:

No puedo pensar en un lugar mejor que el libro de Owen para aprender sobre la probabilidad empírica.

Una forma práctica de pensar acerca de es como la probabilidad de una distribución multinomial en los puntos de datos observados . La probabilidad es, por lo tanto, una función del vector de probabilidad , el espacio de parámetros es realmente el simplex dimensional de los vectores de probabilidad, y el MLE está poniendo peso en cada una de las observaciones (suponiendo que son todos diferentes) La dimensión del espacio de parámetros aumenta con el número de observaciones. $L = L(p_1, \ldots, p_n)$ $x_1, \ldots, x_n$ $(p_1, \ldots, p_n)$ $n$ $1/n$

Un punto central es que la probabilidad empírica proporciona un método para calcular los intervalos de confianza mediante la creación de perfiles sin especificar un modelo paramétrico. Si el parámetro de interés es la media, , entonces para cualquier vector de probabilidad tenemos que la media es y podemos calcular la probabilidad de perfil como Entonces podemos calcular los intervalos de confianza de la forma con . Aquí es la media empírica y $\mu$ $p = (p_1, \ldots, p_n)$

μ (p) = \sum_{i = 1}^{n} x_{i} p_{i},

$\mu(p) = \sum_{i=1}^n x_i p_i,$

L_{prof} (μ) = max {L (p) ∣ μ (p) = μ} .

$L_{\text{prof}}(\mu) = \max \{ L(p) \mid \mu(p) = \mu \}.$

I_{r} = {μ ∣ L_{prof} (μ) \geq r L_{prof} (\bar{x})}

$I_r = \{ \mu \mid L_{\text{prof}}(\mu) \geq r L_{\text{prof}}(\bar{x}) \}$

r \in (0, 1)

$r \in (0,1)$

\bar{x}

$\bar{x}$

L_{prof} (\bar{x}) = n^{- n}

$L_{\text{prof}}(\bar{x}) = n^{-n}$ . Los intervalos quizás deberían llamarse intervalos de probabilidad (perfil) ya que no se hace ninguna declaración sobre la cobertura por adelantado. Al disminuir los intervalos (sí, son intervalos) forman una familia de intervalos de confianza anidada y creciente. La teoría asintótica o el bootstrap pueden usarse para calibrar para lograr una cobertura del 95%, por ejemplo.

I_{r}

$I_r$

r

$r$

I_{r}

$I_r$

r

$r$

El libro de Owen cubre esto en detalle y proporciona extensiones a problemas estadísticos más complicados y otros parámetros de interés.

— NRH
fuente

(+1) Al no tener acceso al libro, siempre se puede comenzar con los documentos originales para obtener los fundamentos de la teoría. Al igual que el libro, los documentos también están escritos con bastante claridad.

— cardenal

Algunos enlaces: ( 1 ) A. Owen (1988), Intervalos de probabilidad empírica de intervalos de confianza para un solo funcional , Biometrika , vol. 75, núm. 2, págs. 237-249, ( 2 ) A. Owen (1990), Regiones de confianza empíricas de coeficiente de probabilidad , Ann. Estadístico. vol. 18, no. 1, págs. 90-120 ( acceso abierto ), y ( 3 ) A. Owen (1991) Probabilidad empírica para modelos lineales , Ann. Estadístico. vol. 19, no. 4, págs. 1725-1747 ( acceso abierto ).

— cardenal

@ cardinal ¡Fantástico! Debería haber pensado en eso yo mismo.

— Sameer

@NHS ¡Gracias por tu explicación! Para ser claros, ¿es el wrt el 's? Además, ¿puede explicar por qué ? ¿Debería ser quizás ?

L_{p r o f} (μ)

$L_{prof}(\mu)$

a r g m a x

$argmax$

p

$p$

L_{p r o f} (\bar{x}) = n^{n}

$L_{prof}(\bar{x})=n^n$

\prod_{i} n^{- 1} = n^{- n}

$\prod_i n^{-1} = n^{-n}$

— Sameer

@Sameer, el error tipográfico se corrige ahora. Sin embargo, es no la argmax. Es la probabilidad de perfil obtenida maximizando la probabilidad sobre todos los vectores de parámetros con un valor dado de . Por cierto, con un acceso universitario adecuado, obtuve una versión electrónica de CRC de los capítulos individuales del libro de Owen.

μ

$\mu$

— NRH

En econometría, muchos trabajos aplicados comienzan con la suposición de que donde es un vector de datos, es un sistema conocido de ecuaciones , y es un parámetro desconocido, . La función proviene de un modelo económico. El objetivo es estimar .

E [g (X, θ)] = 0

$E[g(X,\theta)] = 0$

X

$X$

g

$g$

q

$q$

θ \in Θ \subseteq R^{p}

$\theta \in \Theta \subseteq \mathbb{R}^p$

q \geq p

$q \geq p$

g

$g$

θ

$\theta$

El enfoque tradicional, en econometría, para la estimación e inferencia sobre es utilizar el método generalizado de momentos: donde es una matriz de ponderación positiva definida y Los proveedores de probabilidad empírica son un estimador alternativo a GMM. La idea es hacer cumplir la condición de momento como una restricción al maximizar la probabilidad no paramétrica. Primero, arregle a . Luego resuelva sujeto a $\theta$

{\hat{θ}}_{GMM} = {argmin}_{θ \in Θ} {\bar{g}}_{n} (θ)^{'} W {\bar{g}}_{n} (θ)

$\hat{\theta}_\text{GMM} = \text{argmin}_{\theta \in \Theta} \; \bar{g}_n(\theta) 'W \bar{g}_n(\theta)$

W

$W$

{\bar{g}}_{n} (θ) := \frac{1}{n} \sum_{i = 1}^{n} g (X_{i}, θ) .

$\bar{g}_n(\theta) := \frac{1}{n} \sum_{i=1}^n g(X_i,\theta).$

θ

$\theta$

L (θ) = max_{p_{1}, \dots, p_{n}} \prod_{i = 1}^{n} p_{i}

$L(\theta) = \max_{p_1,\ldots,p_n} \; \prod_{i=1}^n p_i$

\sum_{i = 1}^{n} p_{i} = 1, p_{i} \geq 0, \sum_{i = 1}^{n} p_{i} \cdot g (X_{i}, θ) = 0.

$\sum_{i=1}^n p_i=1, \qquad p_i \geq 0, \qquad \sum_{i=1}^n p_i \cdot g(X_i,\theta) = 0.$ Este es el `bucle interno '. Luego, maximice sobre : Se ha demostrado que este enfoque tiene mejores propiedades de orden superior que GMM (ver Newey y Smith 2004, Econometrica ), que es una razón por la cual es preferible a GMM. Para referencia adicional, vea las notas y la conferencia de Imbens y Wooldridge aquí (conferencia 15).

θ

$\theta$

{\hat{θ}}_{EL} = {argmax}_{θ \in Θ} \log L (θ) .

$\hat{\theta}_\text{EL} = \text{argmax}_{\theta \in \Theta} \; \log L(\theta).$

Por supuesto, hay muchas otras razones por las cuales EL ha llamado la atención en econometría, pero espero que este sea un punto de partida útil. Los modelos de igualdad de momentos son muy comunes en la economía empírica.

— Aelmore
fuente

Gracias por escribir una respuesta tan clara y bien referenciada. ¡Bienvenido a nuestra comunidad!

— whuber

En el análisis de supervivencia, la curva de Kaplan-Meier es el estimador no paramétrico más famoso de la función de supervivencia , donde denota la variable aleatoria del tiempo hasta el evento. Básicamente, es una generalización de la función de distribución empírica que permite la censura. Se puede derivar heurísticamente, como se da en la mayoría de los libros de texto prácticos. Pero también puede derivarse formalmente como un estimador de probabilidad máxima (empírica). Aquí hay más detalles . $S(t) = Pr(T > t)$ $T$ $\hat{S}$

— ocram
fuente