¿Por qué es útil el Jeffreys anterior?

61

Entiendo que el Jeffreys anterior es invariante bajo re-parametrización. Sin embargo, lo que no entiendo es por qué se desea esta propiedad.

¿Por qué no querrías el cambio previo bajo un cambio de variables?

bayesian prior

— tskuzzy
fuente

3

De posible interés: ¿Por qué los anteriores de Jeffreys se consideran no informativos? .

30

Déjame completar la respuesta de Zen. No me gusta mucho la noción de "representar la ignorancia". Lo importante no es el Jeffreys anterior sino el Jeffreys posterior . Este posterior tiene como objetivo reflejar lo mejor posible la información sobre los parámetros aportados por los datos. La propiedad de invariancia se requiere naturalmente para los dos puntos siguientes. Considere, por ejemplo, el modelo binomial con proporción desconocida parámetro y las probabilidades parámetro $\theta$ . $\psi=\frac{\theta}{1-\theta}$

El Jeffreys posterior en refleja lo mejor posible la información sobre aportada por los datos. Hay una correspondencia uno a uno entre y . Luego, la transformación de Jeffreys posterior en en posterior en (mediante la fórmula habitual de cambio de variables) debería producir una distribución que refleje lo mejor posible la información sobre . Por lo tanto, esta distribución debería ser el Jeffreys posterior sobre . Esta es la propiedad de la invariancia. $\theta$ $\theta$ $\theta$ $\psi$ $\theta$ $\psi$ $\psi$ $\psi$
$\theta$ $\psi$ $\theta$

— Stéphane Laurent
fuente

Ah, esto aclara un poco las cosas. Pero, ¿hay una razón intuitivamente buena por la cual el parámetro posterior para el parámetro de probabilidades debería ser el mismo que el posterior para el parámetro de proporción? Eso me parece poco natural.

— tskuzzy

No es lo mismo ! Uno es inducido por el otro por la fórmula de cambio de variables. Hay una correspondencia uno a uno entre los dos parámetros. Entonces, la distribución posterior en uno de estos parámetros debe inducir la distribución posterior en el otro.

— Stéphane Laurent

2

P {1 / 3 \leq θ \leq 2 / 3 ∣ X = x} = P {1 / 2 \leq ψ \leq 2 ∣ X = x}

$P\{1/3\leq\theta\leq 2/3\mid X=x\}=P\{1/2\leq\psi\leq 2\mid X=x\}$

1

Creo que lo que falta en esta publicación es que cuando hay mucha información en los datos sobre un parámetro, el uso previo particular realmente no importa. Por ejemplo, una proporción binomial, ya sea que usemos un uniforme, jeffreys o haldane anterior, hace muy poca diferencia a menos que el posterior sea muy amplio. En este caso, es un poco un argumento académico en cuanto a qué prior es "correcto" porque no se pueden sacar conclusiones significativas de todos modos. El valor real de un previo no informativo está en múltiples dimensiones, pero este problema no se ha resuelto: el anterior de Jeffreys es malo aquí.

— probabilidadislogica

3

Esta teoría es incompleta y depende del orden de los parámetros, la elección de la región compacta y la función de probabilidad. Por lo tanto, no obedece el principio de probabilidad, por ejemplo. Además, es difícil de aplicar a datos no independientes. Además, la teoría de Bernardo solo está completa para problemas de parámetros 1-d. Sin embargo, es probablemente el mejor método disponible actualmente. Un buen competidor es el enfoque de grupo de transformación de Jaynes.

— probabilidadislogic

41

Suponga que usted y un amigo están analizando el mismo conjunto de datos utilizando un modelo normal. Adoptas la parametrización habitual del modelo normal utilizando la media y la varianza como parámetros, pero tu amigo prefiere parametrizar el modelo normal con el coeficiente de variación y la precisión como parámetros (que es perfectamente "legal"). Si ambos usan los antecedentes de Jeffreys, su distribución posterior será la distribución posterior de su amigo adecuadamente transformada de su parametrización a la suya. Es en este sentido que el prior de Jeffreys es "invariante"

(Por cierto, "invariante" es una palabra horrible; lo que realmente queremos decir es que es "covariante" en el mismo sentido de cálculo de tensor / geometría diferencial, pero, por supuesto, este término ya tiene un significado probabilístico bien establecido, así que no podemos usarlo)

¿Por qué se desea esta propiedad de consistencia? Porque, si el anterior de Jeffreys tiene alguna posibilidad de representar la ignorancia sobre el valor de los parámetros en un sentido absoluto (en realidad, no lo hace, pero por otras razones no relacionadas con la "invariancia"), y no la ignorancia en relación con una parametrización particular del modelo, debe darse el caso de que, sin importar con qué parametrizaciones elegimos arbitrariamente comenzar, nuestros posteriores deben "coincidir" después de la transformación.

Jeffreys mismo violó esta propiedad de "invariancia" de manera rutinaria al construir sus antecedentes.

Este documento tiene algunas discusiones interesantes sobre este y otros temas relacionados.

— zen
fuente

1

+1: buena respuesta. Pero, ¿por qué el previo de los Jeffrey no representa ignorancia sobre el valor de los parámetros?

— Neil G

44

Porque ni siquiera es una distribución. Es paradójico afirmar que una distribución refleja ignorancia. Una distribución siempre refleja información.

— Stéphane Laurent

2

Otra referencia: projecteuclid.org/…

— Stéphane Laurent

@ StéphaneLaurent: Uno debe tener alguna creencia incluso en un estado de total ignorancia. Cualquiera que sea su posterior menos cualquier probabilidad que sus datos induzcan es la creencia de que está asumiendo en ese estado de ignorancia. El principio intuitivo que debe respetarse al decidir esa creencia es que debe ser invariable bajo cambios de etiquetas (incluida la reparametrización). No estoy seguro, pero creo que ese principio solo (en todas sus posibles interpretaciones: máxima entropía, reparametrización invariante, etc.) siempre decide la creencia.

— Neil G

Por lo tanto, cuando uno dice "una distribución refleja ignorancia", significa que la distribución coincide con este principio.

— Neil G

12

Para agregar algunas citas a la gran respuesta de Zen: Según Jaynes, el anterior de Jeffreys es un ejemplo del principio de los grupos de transformación, que resulta del principio de indiferencia:

$A_1$ $A_2$ $p_1=p_2$ $(1, 2)$ entonces podríamos generar un nuevo problema en el que nuestro estado de conocimiento es el mismo pero en el que estamos asignando diferentes probabilidades ...

Ahora, para responder a su pregunta: "¿Por qué no querría el cambio previo bajo un cambio de variables?"

Según Jaynes, la parametrización es otro tipo de etiqueta arbitraria, y uno no debería ser capaz de “por un simple intercambio de etiquetas generar un nuevo problema en el que nuestro estado de conocimiento es el mismo, pero en el que estamos asignando diferentes probabilidades. "

— Neil G
fuente

2

Jaynes me parece un tanto místico.

— Stéphane Laurent

@ StéphaneLaurent: ¡Quizás me convertí demasiado fácilmente entonces! Pero, esto me pareció muy convincente: ET Jaynes, “¿Dónde nos encontramos en la máxima entropía?” En The Maximum Entropy Formalism, R. Levine y M. Tribus, Eds. Cambridge, MA, EE. UU .: The MIT Press, 1979, págs. 15–118.

— Neil G

2

Xian recibió un correo electrónico elogiando a Jaynes: ceremade.dauphine.fr/~xian/critic.html Es una pena si no lees francés, este correo es a la vez aterrador y divertido. El escritor parece haberse vuelto loco al pensar demasiado en las estadísticas bayesianas;)

— Stéphane Laurent

1

@ StéphaneLaurent: Leyendo ahora. Esto es absolutamente correcto: "si vous afirma en la página 508" la no repetibilidad de la mayoría de los experimentos "à quoi bon ensuite" en busca de procedimientos fequentistas óptimos "en la página 512? comment le "choix Bayésien", qui se veut être le paradigme pour tout problème inférentiel, n'est-ce pas, Peut-il se baser sur une réconciliation avec le fréquentisme (p. 517-518)? Pourquoi ne pas dire une fois pour toute qu'une probabilité n'est jamais une fréquence! "

— Neil G

1

También: "Le Principe du Maximum d'Entropie est lui absolument fondamental étant donné qu'il est nécessaire et suffisant pour régler ces cas d'école et que paré consecuent the procure dans ces cas the signification véritable des probabilités a priori. Quand on sait Qu'il permet ensuite d'unifier Théorie de l'Information, Mécanique Statistique, Thermodynamique ... "también describe mi posición. Sin embargo, a diferencia del escritor, no me interesa dedicar horas a convencer a otros de que acepten lo que encuentro tan natural.

— Neil G

4

p N (μ_{0}, σ_{0}^{2}) + (1 - p) N (μ_{1}, σ_{1}^{2})

$p\mathcal{N}(\mu_0,\sigma_0^2)+(1-p)\mathcal{N}(\mu_1,\sigma_1^2)$ Escribí con Clara Grazian.)

— Xi'an
fuente

-2

Jeffreys antes es inútil . Esto es porque:

Simplemente especifica la forma de la distribución; no le dice cuáles deberían ser sus parámetros.
Nunca es completamente ignorante: siempre hay algo sobre el parámetro que conoce (por ejemplo, a menudo no puede ser infinito). Úselo para su inferencia definiendo una distribución previa. No te mientas a ti mismo diciendo que no sabes nada.
"Invarianza bajo transformación" no es una propiedad deseable. Su probabilidad cambia bajo la transformación (por ejemplo, por el jacobiano). Esto no crea "nuevos problemas" ritmo de Jaynes. ¿Por qué no se debe tratar igual a lo anterior?

Simplemente no lo uses.

— Comité ejecutivo nacional
fuente

1

Eh? Probabilidad no es una densidad y no va a cambiar bajo reparametrización

— innisfree