Interpretación estadística de la distribución máxima de entropía


23

He utilizado el principio de máxima entropía para justificar el uso de varias distribuciones en diversos entornos; sin embargo, todavía tengo que poder formular una interpretación estadística, en oposición a la teoría de la información, de la entropía máxima. En otras palabras, ¿qué implica maximizar la entropía acerca de las propiedades estadísticas de la distribución?

¿Alguien ha encontrado o tal vez descubrió usted mismo una interpretación estadística de max. distribuciones de entropía que no atraen a la información, sino solo a conceptos probabilísticos?

Como un ejemplo de tal interpretación (no necesariamente cierto): "Para un intervalo de longitud arbitraria L en el dominio de la RV (suponiendo que su 1-d sea continuo por simplicidad), se minimiza la probabilidad máxima que puede contener este intervalo. por la distribución máxima de entropía ".

Entonces, usted ve que no se habla de "informatividad" u otras ideas más filosóficas, solo implicaciones probabilísticas.


3
Creo que debe ser más específico sobre lo que está buscando: la entropía es, después de todo, una medida "estadística" como una varianza, etc., por lo que la distribución máxima de entropía maximiza la entropía es una descripción estadística perfectamente buena. Entonces me parece que tienes que salir de las estadísticas para llegar a una "justificación"
seanv507

1
Seanv: Estoy de acuerdo en que la entropía, como función estadística, es tan "estadística" como la varianza, el valor esperado, el sesgo, etc. Sin embargo, utilizando ejemplos de desviación estándar y media, estos tienen interpretaciones puramente probabilísticas a través de los teoremas de Markov y Chebyshev y, en última instancia, en uno de una serie de teoremas de límite central y también intuitivamente como sumas de largo plazo (para la media) y error RMS (para la desviación estándar). Quizás debería reformular mi pregunta para leer "Interpretación probabilística de distribuciones máximas de entropía".
Annika

1
Annika, la distribución máxima de entropía tiene la siguiente interpretación: si son variables aleatorias, entonces la probalidad condicional P ( | X 1 + + X n = n a ) P ( ) como n donde P es la distribución de entropía máxima del conjunto { P : E P X = a }X1,X2,PAGS(El |X1++Xnorte=norteuna)PAGS()nortePAGS{PAGS:miPAGSX=una}. Ver también ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1056374&tag=1
Ashok

2
Gracias Ashok Echaré un vistazo a ese documento con más detalle. Este parece ser un caso específico de maximizar la entropía para una media dada, pero todavía tengo curiosidad sobre lo que la operación de maximizar la entropía de Shanon está haciendo matemáticamente de tal manera que el resultado anterior se mantenga. ¿Está minimizando efectivamente la densidad máxima o la concentración promedio de la medida de probabilidad?
Annika

Respuestas:


19

Este no es realmente mi campo, así que algunas reflexiones:

Comenzaré con el concepto de sorpresa . ¿Qué significa sorprenderse? Por lo general, significa que sucedió algo que no se esperaba que sucediera. Entonces, sorprende que sea un concepto probabilístico y puede explicarse como tal (IJ Good ha escrito sobre eso). Ver también Wikipedia y Bayesian Surprise .

Tomemos el caso particular de una situación de sí / no, algo puede suceder o no. Sucede con probabilidad p . Digamos, si p = 0.9 y sucede, no estás realmente sorprendido. Si p=0.05 y sucede, estás algo sorprendido. Y si p=0.0000001 y sucede, estás realmente sorprendido. Entonces, una medida natural del "valor sorpresa en el resultado observado" es alguna función (anti) monótona de la probabilidad de lo que sucedió. Parece natural (y funciona bien ...) tomar el logaritmo de probabilidad de lo que sucedió, y luego colocamos un signo menos para obtener un número positivo. Además, al tomar el logaritmo nos concentramos en el orden de la sorpresa y, en la práctica, las probabilidades a menudo solo se conocen por orden, más o menos .

Entonces, definimos

Surprise(A)=logp(A)
donde A es el resultado observado, y p(A) es su probabilidad.

Ahora podemos preguntar cuál es la sorpresa esperada . Sea X una variable aleatoria de Bernoulli con probabilidad p . Tiene dos posibles resultados, 0 y 1. Los valores de sorpresa respectivos son

Surprise(0)=log(1p)Surprise(1)=logp
entonces la sorpresa al observarXes en sí misma una variable aleatoria con expectativa
plogp+(1p)log(1p)
y eso es --- ¡sorpresa! --- la entropía deX! ¡Así que seesperaentropíasorpresa!

Ahora, esta pregunta es sobre la entropía máxima . ¿Por qué alguien querría usar una distribución de entropía máxima? ¡Bueno, debe ser porque quieren sorprenderse al máximo! ¿Por qué alguien querría eso?

Una forma de verlo es la siguiente: desea aprender sobre algo, y para ese objetivo establece algunas experiencias de aprendizaje (o experimentos ...). Si ya sabía todo sobre este tema, siempre puede predecir perfectamente, por lo que nunca se sorprenderá. Entonces nunca obtienes una nueva experiencia, así que no aprendas nada nuevo (pero ya sabes todo --- no hay nada que aprender, así que está bien). En la situación más típica en la que está confundido, no puede predecir perfectamente, ¡hay una oportunidad de aprendizaje! Esto lleva a la idea de que podemos medir la "cantidad de aprendizaje posible" por la sorpresa esperada , es decir, la entropía. Entonces, maximizar la entropía no es más que maximizar las oportunidades de aprendizaje. Eso suena como un concepto útil, que podría ser útil en el diseño de experimentos y esas cosas.

Un ejemplo poético es el bien conocido

Wenn einer eine reise macht, dann kann er was erzählen ...

Un ejemplo práctico: desea diseñar un sistema para pruebas en línea (en línea, lo que significa que no todos reciben las mismas preguntas, las preguntas se eligen dinámicamente según las respuestas anteriores, optimizadas, de alguna manera, para cada persona).

pagspp=0.5 0.5

XX{X=x}logpxf(x)f

Surprise(x)=logf(x)
X
E{logf(X)}=f(x)logf(x)dx
XX

X


55
¡Esta es una de las mejores explicaciones intuitivas de máxima entropía que he visto!
Vladislavs Dovgalecs

3

Si bien no soy un experto en teoría de la información y máxima entropía, me ha interesado por un tiempo.

La entropía es una medida de la incertidumbre de una distribución de probabilidad que se derivó de acuerdo con un conjunto de criterios. Este y las medidas relacionadas caracterizan las distribuciones de probabilidad. Y, es la medida única que satisface esos criterios. Esto es similar al caso de la probabilidad en sí misma, que como se explica maravillosamente en Jaynes (2003), es la medida única que satisface algunos criterios muy deseables para cualquier medida de incertidumbre de las declaraciones lógicas.

Cualquier otra medida de la incertidumbre de una distribución de probabilidad que fuera diferente de la entropía tendría que violar uno o más de los criterios utilizados para definir la entropía (de lo contrario, sería necesariamente entropía). Por lo tanto, si tuviera alguna declaración general en cuanto a la probabilidad de que de alguna manera dio los mismos resultados que la entropía máxima ... entonces sería ser máxima entropía!

Lo más cercano que puedo encontrar a una declaración de probabilidad sobre las distribuciones máximas de entropía hasta ahora es el teorema de concentración de Jaynes . Puede encontrarlo claramente explicado en Kapur y Kesavan (1992). Aquí hay una nueva declaración:

pagsnortepagsyoyo=1,...,norte. Tenemosmetrorestricciones que nuestra distribución de probabilidad tiene que satisfacer; Además, dado que las probabilidades deben sumar 1, tenemos un total demetro+1 restricciones

Dejar S ser la entropía de alguna distribución que satisfaga la metro+1 restricciones y dejar Smax ser la entropía de la distribución máxima de entropía.

Como el tamaño del conjunto de observaciones norte crece, tenemos

2norte(Smax-S)χnorte-metro-12.

Con esto, un intervalo de entropía del 95% se define como

(Smaxχnm12(0.95)2N,Smax).
So, any other distribution that satisfies the same constraints as the maximum entropy distribution has a 95% chance of having entropy greater than Smaxχnm12(0.95)2N.

E.T. Jaynes (2003) Probability Theory: The Logic of Science. Cambridge University Press.

J.N. Kapur and .K. Kesavan (1992) Entropy Optimization Principles with Applications. Academic Press, Inc.


3

Perhaps not exactly what you are after, but in Rissanen, J. Stochastic Complexity in Statistical Inquiry, World Scientific, 1989, p. 41 there is an interesting connection of maximum entropy, the normal distribution and the central limit theorem. Among all densities with mean zero and standard deviation σ, the normal density has maximum entropy.

"Hence, in this interpretation the basic central limit theorem expresses the fact that the per symbol entropy of sums of independent random variables with mean zero and common variance tends to the maximum. This seems eminently reasonable; in fact, it is an expression of the second law of thermodynamics, which Eddington viewed as holding 'the supreme position among the laws of Nature'."

Todavía no he explorado las implicaciones de esto, ni estoy seguro de entenderlas completamente.

[editar: error tipográfico fijo]

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.