¿Existe un enfoque bayesiano para la estimación de la densidad?

Estoy interesado para estimar la densidad de una variable aleatoria continua . Una forma de hacerlo que aprendí es el uso de la Estimación de la densidad del núcleo. $X$

Pero ahora estoy interesado en un enfoque bayesiano que siga las siguientes líneas. En principio creo que sigue una distribución . Tomo lecturas de . ¿Hay algún enfoque para actualizar basado en mis nuevas lecturas? $X$ $F$ $n$ $X$ $F$

Sé que parece que me estoy contradiciendo: si creo únicamente en como mi distribución anterior, entonces ningún dato debería convencerme de lo contrario. Sin embargo, supongamos que fuera y mis puntos de datos fueran como . Al ver , obviamente no puedo seguir con mi anterior, pero ¿cómo debo actualizarlo? $F$ $F$ $Unif[0,1]$ $(0.3, 0.5, 0.9, 1.7)$ $1.7$

Actualización: Basado en las sugerencias de los comentarios, he comenzado a mirar el proceso de Dirichlet. Déjame usar las siguientes anotaciones:

$G \sim DP(\alpha,H)\\ \theta_i | G \sim G\\ x_i | \theta_i \sim N(\theta_i,\sigma^2)$

Después de enmarcar mi problema original en este idioma, creo que estoy interesado en lo siguiente: . ¿Cómo se hace esto? $\theta_{n+1} | x_1,...,x_n$

En este conjunto de notas (página 2), el autor hizo un ejemplo de (esquema de urna de Polya). No estoy seguro de si esto es relevante. $\theta_{n+1} | \theta_1,...,\theta_n$

Actualización 2: también deseo preguntar (después de ver las notas): ¿cómo eligen las personas para el DP? Parece una elección al azar. Además, ¿cómo elige la gente una previa para DP? ¿Debo usar un previo para como mi anterior para ? $\alpha$ $H$ $\theta$ $H$

— Renrenthehamster
fuente

"Si creo únicamente en F como mi distribución anterior, entonces ningún dato debería convencerme de lo contrario". Esta es la antítesis de la inferencia bayesiana, que está más en la línea de tomar lo que crees en una mano y el mundo en la otra mano, y juntarlos y ver qué sale. Lavar, enjuagar, repetir.

— Alexis

¿Sabes algo sobre el proceso de dirichlet?

— niandra82

Ignorando su último párrafo: hay dos opciones comunes para este problema. Una es una mezcla finita de normales (puede elegir cuántas normales en función de la probabilidad en la validación cruzada) o una mezcla infinita de normales como sugiere @ niandra82. Esto se puede hacer con algo como el muestreo de Gibbs o la inferencia variacional. ¿Está familiarizado con alguno de estos métodos?

También debería preguntar, ¿cómo piensa utilizar este KDE? El método elegido y el tamaño (infinito, finito) pueden depender de su objetivo.

Esto suena como un problema de elección de modelo o filosófico. En realidad, nuestra elección de qué probabilidad de usar en la inferencia bayesiana también impone creencias previas ...

— Zoë Clark

Respuestas:

Como desea un enfoque bayesiano, debe asumir algunos conocimientos previos sobre lo que desea estimar. Esto será en forma de distribución.

Ahora, está el problema de que esta es ahora una distribución sobre distribuciones. Sin embargo, esto no es un problema si supone que las distribuciones candidatas provienen de alguna clase de distribuciones parametrizadas.

Por ejemplo, si desea asumir que los datos están distribuidos en gauss con una media desconocida pero con una varianza conocida, entonces todo lo que necesita es un previo sobre la media.

La estimación MAP del parámetro desconocido ( ) podría proceder asumiendo que todas las observaciones / puntos de datos son condicionalmente independientes dado el parámetro desconocido. Entonces, la estimación MAP es $\theta$

$\hat{\theta} = \arg \max_\theta ( \text{Pr}[x_1,x_2,...,x_n,\theta] )$ ,

dónde

$\text{Pr}[x_1,x_2,...,x_n,\theta] = \text{Pr}[x_1,x_2,...,x_n | \theta] \text{Pr}[\theta] = \text{Pr}[\theta] \prod_{i=1}^n \text{Pr}[x_i | \theta]$ .

Cabe señalar que hay combinaciones particulares de la probabilidad previa y las distribuciones candidatas que dan lugar a actualizaciones fáciles (forma cerrada) a medida que se reciben más puntos de datos. $\text{Pr}[\theta]$ $\text{Pr}[x | \theta]$

— frijol
fuente

Para propósitos de estimación de densidad lo que necesita no es

$\theta_{n+1}|x_{1},\ldots,x_{n}$ .

La fórmula en notas refiere a la distribución predictiva del proceso de Dirichlet. $\theta_{n+1}|\theta_{1},\ldots,\theta_{n}$

Para la estimación de densidad, en realidad debe tomar muestras de la distribución predictiva

π (re X_{norte + 1} El | X_{1}, ..., X_{norte})

$\pi(dx_{n+1}|x_{1},\ldots,x_{n})$

El muestreo de la distribución anterior se puede hacer con métodos condicionales o con métodos marginales. Para los métodos condicionales, eche un vistazo al artículo de Stephen Walker [1]. Para métodos marginales, debe consultar en el documento de Radford Neal [2].

Para el parámetro de conexión Mike West [3] propone un método de inferencia en el procedimiento MCMC que incluye una distribución condicional completa para . Si decide no actualizar la concentración en el procedimiento MCMC, debe tener en cuenta que si elige un valor grande para él, el número de valores distintos extraídos del proceso de Dirichlet será mayor que el número de valores distintos. cuando se usará un pequeño número para . $\alpha$ $\alpha$ $\alpha$ $\alpha$

[1] SG, Walker (2006). Muestreo del modelo de Mezcla Dirichlet con rodajas. Comunicaciones en estadística (simulación y computación).

[2] RM, Neal (2000) Métodos de Markov Chain Monte Carlo para modelos de mezcla de procesos Dirichlet. Revista de Estadística Computacional y Gráfica. Vol. 9, No 2, pp 249-265

[3] M., West (1992). Estimación de hiperparámetros en modelos de mezcla de procesos de Dirichlet. Reporte técnico

— Christos
fuente

-1

¿Hay algún enfoque para actualizar F basado en mis nuevas lecturas?

Hay algo precisamente para eso. Es más o menos la idea principal de la inferencia bayesiana.

$p(\theta | y) \propto p(y|\theta)p(\theta)$

El es el anterior, lo que se llama . La es lo que los bayesianos llaman "probabilidad" y es la probabilidad de observar sus datos dado algún valor de theta. Simplemente multiplíquelos y obtenga lo que se llama una distribución "posterior" de . Esta es su "F actualizada". Echa un vistazo al capítulo 1 de cualquier introducción al libro de estadísticas bayesianas. $p(\theta)$ $F$ $p(y|\theta)$ $\theta$

No tiene que deshacerse de (su anterior), solo tiene que darse cuenta de que ya no es su mejor suposición, ahora que tiene datos para refinarlo. $p(\theta)$

— rcorty
fuente

Esto no responde a la pregunta que se hace. OP está pidiendo cómo se puede poner un previo en cuando . Suponiendo que nuestro anterior en pone la probabilidad uno en distribuciones con una densidad, la probabilidad es . Por lo tanto, necesitamos construir un prior en el espacio de funciones de distribución que sean diferenciables (que es de dimensión infinita), y OP pregunta cómo hacerlo.

F

$F$

X_{1}, \dots, X_{n} \overset{i i d}{\sim} F

$X_1, \ldots, X_n \stackrel{iid}{\sim} F$

F

$F$

L (F) = \prod_{i = 1}^{N} {\frac{d F}{d x} |}_{x = x_{i}}

$L(F) = \prod_{i=1}^N \left.\frac{dF}{dx}\right|_{x = x_i}$

F

$F$

— chico