Preguntas etiquetadas con prior

En las estadísticas bayesianas, una distribución previa formaliza la información o el conocimiento (a menudo subjetivo), disponible antes de que se vea una muestra, en forma de distribución de probabilidad. Se utiliza una distribución con gran difusión cuando se sabe poco acerca de los parámetros, mientras que una distribución previa más estrecha representa un mayor grado de información.


3
¿Cómo puede un previo inadecuado conducir a una distribución posterior adecuada?
Sabemos que en el caso de una distribución previa adecuada, P(θ∣X)=P(X∣θ)P(θ)P(X)P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta \mid X) = \dfrac{P(X \mid \theta)P(\theta)}{P(X)} ∝P(X∣θ)P(θ)∝P(X∣θ)P(θ) \propto P(X \mid \theta)P(\theta) . La justificación habitual para este paso es que la distribución marginal de , , es constante con respecto a y, por lo tanto, puede ignorarse al derivar …



2
Interpretación natural para hiperparámetros LDA
¿Alguien puede explicar cuál es la interpretación natural de los hiperparámetros LDA? ALPHAy BETAson parámetros de distribuciones de Dirichlet para (por documento) tema y (por tema) distribuciones de palabras respectivamente. Sin embargo, ¿alguien puede explicar lo que significa elegir valores más grandes de estos hiperparámetros frente a valores más pequeños? …

2
¿Por qué un antes de la variación se considera débil?
Fondo Una de las variaciones previas débiles más comúnmente utilizadas es la gamma inversa con parámetros (Gelman 2006) .α=0.001,β=0.001α=0.001,β=0.001\alpha =0.001, \beta=0.001 Sin embargo, esta distribución tiene un IC del 90% de aproximadamente .[3×1019,∞][3×1019,∞][3\times10^{19},\infty] library(pscl) sapply(c(0.05, 0.95), function(x) qigamma(x, 0.001, 0.001)) [1] 3.362941e+19 Inf A partir de esto, interpreto que el …



4
¿Cómo es mejor el marco bayesiano en la interpretación cuando usualmente usamos antecedentes no informativos o subjetivos?
A menudo se argumenta que el marco bayesiano tiene una gran ventaja en la interpretación (más frecuente), porque calcula la probabilidad de un parámetro dados los datos - lugar de como en el marco frecuentista. Hasta aquí todo bien.p(θ|x)p(θ|x)p(\theta|x)p(x|θ)p(x|θ)p(x|\theta) Pero, toda la ecuación se basa en: p(θ|x)=p(x|θ).p(θ)p(x)p(θ|x)=p(x|θ).p(θ)p(x)p(\theta|x) = {p(x|\theta) . …

1
¿Existe una interpretación bayesiana de la regresión lineal con regularización simultánea de L1 y L2 (también conocida como red elástica)?
Es bien sabido que la regresión lineal con una penalización de es equivalente a encontrar la estimación MAP dada una Gaussiana anterior sobre los coeficientes. Del mismo modo, usar una penalización es equivalente a usar una distribución de Laplace como la anterior.l2l2l^2l1l1l^1 No es raro usar alguna combinación ponderada de …



2
Frecuentismo y antecedentes
Robby McKilliam dice en un comentario a esta publicación: Cabe señalar que, desde el punto de vista de los frecuentistas, no hay razón para que no pueda incorporar el conocimiento previo al modelo. En este sentido, la vista frecuentista es más simple, solo tiene un modelo y algunos datos. No …


2
¿Qué distribuciones anteriores podrían / ​​deberían usarse para la varianza en un modelo bayesisan jerárquico cuando la varianza media es de interés?
En su artículo ampliamente citado Distribuciones previas para parámetros de varianza en modelos jerárquicos (916 citas hasta ahora en Google Scholar) Gelman propone que las distribuciones anteriores no informativas para la varianza en un modelo bayesiano jerárquico son la distribución uniforme y la distribución de media t. Si entiendo bien …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.