Estimar la entropía de la información a través del muestreo de Monte Carlo

10

Estoy buscando métodos que permitan estimar la entropía de la información de una distribución cuando las únicas formas prácticas de muestreo de esa distribución son los métodos de Monte Carlo.

Mi problema no es diferente al modelo estándar de Ising que se usa típicamente como el ejemplo introductorio para el muestreo de Metrópolis-Hastings. Tengo una distribución de probabilidad sobre un conjunto , es decir, tengo para cada . Los elementos son de naturaleza combinatoria, como los estados de Ising, y hay un número muy elevado de ellos. Esto significa que en la práctica nunca obtengo la misma muestra dos veces cuando tomo muestras de esta distribución en una computadora. no puede calcularse directamente (debido a que no conoce el factor de normalización), pero la relación es fácil de calcular. $A$ $p(a)$ $a \in A$ $a \in A$ $p(a)$ $p(a_1)/p(a_2)$

Quiero estimar la entropía de información de esta distribución,

S = - \sum_{a \in A} p (a) \ln p (a) .

$S = -\sum_{a \in A} p(a) \ln p(a).$

Alternativamente, quiero estimar la diferencia de entropía entre esta distribución y una obtenida restringiéndola a un subconjunto (y, por supuesto, re-normalizando). $a\in A_1 \subset A$

monte-carlo random-sampling

— Charles Wells
fuente

3

Si entiendo qué información tiene disponible, lo que desea no es posible: la información disponible no es suficiente para determinar la entropía. Ni siquiera es suficiente para aproximar la entropía.

Parece que tiene una forma de muestrear desde la distribución , y tiene una forma de calcular la relación para cualquier par de elementos que obtuvo mediante muestreo, pero no tienes otra información Si es así, su problema no tiene solución. $p(\cdot)$ $p(a_1)/p(a_2)$ $a_1,a_2$

En particular, podemos encontrar un par de distribuciones que tienen diferentes entropías, pero que no se pueden distinguir utilizando la información disponible para usted. Considere primero la distribución uniforme en un conjunto (aleatorio) de tamaño . Considere a continuación la distribución uniforme en un conjunto (aleatorio) de tamaño . Estos tienen diferentes entropías (200 bits frente a 300 bits). Sin embargo, dada la información disponible para usted, no tiene forma de saber con cuál de esas dos distribuciones está trabajando. En particular, en ambos casos, la relación $2^{200}$ $2^{300}$ $p(a_1)/p(a_2)$ siempre será exactamente 1, por lo que las proporciones no le ayudarán a distinguir entre las dos distribuciones. Y debido a la paradoja del cumpleaños, puede muestrear tanto como desee, pero nunca obtendrá el mismo valor dos veces (no dentro de su vida útil, excepto con una probabilidad exponencialmente pequeña), por lo que los valores que obtenga del muestreo se verán solo puntos aleatorios y no contienen información útil.

Entonces, para resolver su problema, necesitará saber algo más. Por ejemplo, si sabe algo sobre la estructura de la distribución , eso podría hacer posible resolver su problema. $p(\cdot)$

— DW
fuente

p (a)

$p(a)$ tiene una propiedad especial: es como Gibbs, es decir, donde es la "energía" de . Excepto que hay múltiples cantidades de "energía", cada una con su correspondiente parámetro .

p (a) \propto \exp (θ E (a))

$p(a) \propto \exp(\theta E(a))$

E

$E$

a

$a$

θ

$\theta$

— Charles Wells

1

@CharlesWells, no estoy siguiendo lo que quieres decir con "cantidades múltiples". Parece que vale la pena publicarlo por separado, como una pregunta separada, en la que nos proporciona información sobre la estructura de . Quizás haya una solución para ese caso especial.

p (a)

$p(a)$

— DW

2

Para la segunda parte de su pregunta (estimación de la diferencia de entropía entre distribuciones), puede utilizar la identidad donde es la energía promedio, es la temperatura ( es proporcional a en ), y es la entropía. Para más detalles, ver: Jaynes, E. (1957). Teoría de la información y mecánica estadística. Revisión física, 106 (4), 620–630. http://doi.org/10.1103/PhysRev.106.620 .

F = ⟨ E ⟩ - T S,

$F = \langle E \rangle - T S,$

⟨ E ⟩

$\langle E \rangle$

T

$T$

θ

$\theta$

p \propto e^{θ E}

$p \propto \mathrm{e}^{\theta E}$

S

$S$

La idea sería utilizar uno de los métodos disponibles en la literatura de Física Estadística Computacional (ver los enlaces en la barra lateral de esa página) para encontrar diferencias de energía libre y luego encontrar como una función de y usando la fórmula anterior (tenga en cuenta que puede pensar que la restricción a un subconjunto de es equivalente a modificar la función de energía para que se vuelva infinita en el complemento de ). $\Delta F$ $\Delta S$ $\Delta F$ $\Delta \langle E \rangle$ $A_1$ $A$ $E$ $A_1$

Aquí hay dos referencias adicionales sobre algoritmos para calcular energía libre:

Lelièvre, T., Rousset, M. y Stoltz, G. (2010). Cálculos de energía libre. Imperial College Press. http://doi.org/10.1142/9781848162488

Chipot, C. y Pohorille, A. (2007). Cálculos de energía gratis. (C. Chipot y A. Pohorille, Eds.) (Vol. 86). Berlín, Heidelberg: Springer Berlin Heidelberg. http://doi.org/10.1007/978-3-540-38448-9

— Juan M. Bello-Rivas
fuente

¿Puedes dar referencias más prácticas para calcular las diferencias de energía libre? Esa wiki no llega muy lejos

— Charles Wells

Hecho. Agregué dos referencias más y señalé los enlaces en la barra lateral de la wiki.

— Juan M. Bello-Rivas