¿Qué nos dice la entropía?

Estoy leyendo sobre entropía y me cuesta mucho conceptualizar lo que significa en el caso continuo. La página wiki dice lo siguiente:

La distribución de probabilidad de los eventos, junto con la cantidad de información de cada evento, forma una variable aleatoria cuyo valor esperado es la cantidad promedio de información, o entropía, generada por esta distribución.

Entonces, si calculo la entropía asociada con una distribución de probabilidad que es continua, ¿qué es lo que realmente me dice? Dan un ejemplo sobre lanzar monedas, por lo que el caso discreto, pero si hay una forma intuitiva de explicar a través de un ejemplo como ese en el caso continuo, ¡sería genial!

Si ayuda, la definición de entropía para una variable aleatoria continua es la siguiente: $X$

H (X) = - \int P (x) \log_{b} P (x) d x

$H(X)=-\int P(x)\log_b P(x)dx$ donde es una función de distribución de probabilidad.

P (x)

$P(x)$

Para intentar hacer esto más concreto, considere el caso de $X\sim \text{Gamma}(\alpha,\beta)$ , luego, según Wikipedia , la entropía es

\begin{aligned} H (X) & = E [- \ln (P (X))] \\ = E [- α \ln (β) + \ln (Γ (α)) + \ln (Γ (α)) - (α - 1) \ln (X) + β X] \\ = α - \ln (β) + \ln (Γ (α)) + (1 - α) (\frac{d}{d α} \ln (Γ (α))) \end{aligned}

$\begin{align} H(X)&=\mathbb{E}[-\ln(P(X))]\\ &=\mathbb{E}[-\alpha\ln(\beta)+\ln(\Gamma(\alpha))+\ln(\Gamma(\alpha))-(\alpha-1)\ln(X)+\beta X]\\ &=\alpha-\ln(\beta)+\ln(\Gamma(\alpha))+(1-\alpha)\left(\frac{d}{d\alpha}\ln(\Gamma(\alpha))\right) \end{align}$

Y ahora hemos calculado la entropía para una distribución continua (la distribución Gamma) y si ahora evalúo esa expresión, $H(X)$ , dada $\alpha$ y $\beta$ , ¿qué me dice realmente esa cantidad?

entropy

— OxidadoEstadístico
fuente

(+1) Esa cita hace referencia a un pasaje verdaderamente desafortunado. Está intentando, de una manera laboriosa y opaca, describir e interpretar la definición matemática de la entropía. Esa definición es . Puede ser visto como la expectativa de , donde es la función de densidad de una variable aleatoria . Está intentando caracterizar como la "cantidad de información" asociada con el número .

\int f (x) \log (f (x)) d x

$\int f(x)\log(f(x))dx$

\log (f (X))

$\log(f(X))$

f

$f$

X

$X$

\log (f (x))

$\log(f(x))$

x

$x$

— whuber

Vale la pena preguntar, porque hay un problema técnico delicado pero importante: la versión continua de entropía no disfruta de las mismas propiedades que la versión discreta (que tiene una interpretación natural e intuitiva en términos de información). @Tim AFAIK, ese hilo en Matemáticas aborda solo el caso discreto .

— whuber

@RustyStatistician piensa que te dice cuán sorprendente fue el resultado x. Entonces estás calculando la sorpresa esperada.

- \log (f (x))

$-\log\left(f\left(x\right)\right)$

— Adrian

Re el tema técnico @whuber referencias, esto puede ser de interés.

— Sean Easter

En caso de que esté interesado en los tecnicismos: la entropía se basa en una pseudo-métrica llamada divergencia Kullback-Leibler que se usa para describir distancias entre eventos en su medida respectiva, ver projecteuclid.org/euclid.aoms/1177729694 para el original ( y groudbreaking) papel de Kullback y Leibler. El concepto también reaparece en criterios de selección de modelos como AIC y BIC.

— Jeremías K

Respuestas:

La entropía te dice cuánta incertidumbre hay en el sistema. Digamos que está buscando un gato y sabe que está en algún lugar entre su casa y los vecinos, que está a 1 milla de distancia. Tus hijos te dicen que la distribución beta describe mejor la probabilidad de que un gato esté en la distancia de tu casa . Por lo tanto, un gato puede estar en cualquier lugar entre 0 y 1, pero es más probable que esté en el medio, es decir, . $x$ $f(x;2,2)$ $x_{max}=1/2$

la distribución beta a su ecuación, luego obtendrá . $H=-0.125$

Luego, le preguntas a tu esposa y ella te dice que la mejor distribución para describir su conocimiento de tu gato es la distribución uniforme. Si lo conecta a su ecuación de entropía, obtiene . $H=0$

Tanto la distribución uniforme como la beta permiten que el gato esté en cualquier lugar entre 0 y 1 millas de su casa, pero hay más incertidumbre en el uniforme, porque su esposa realmente no tiene idea de dónde se esconde el gato, mientras que los niños tienen alguna idea , piensan que es más Es probable que esté en algún lugar en el medio. Es por eso que la entropía de Beta es más baja que la de Uniform.

Puede probar otras distribuciones, tal vez su vecino le diga que al gato le gusta estar cerca de cualquiera de las casas, por lo que su distribución beta es con . Su debe ser más baja que la del uniforme nuevamente, porque tienes una idea de dónde buscar un gato. ¿Adivina si la entropía de información de su vecino es mayor o menor que la de sus hijos? Apostaría a los niños cualquier día en estos asuntos. $\alpha=\beta=1/2$ $H$

ACTUALIZAR:

¿Como funciona esto? Una forma de pensar en esto es comenzar con una distribución uniforme. Si está de acuerdo en que es el que tiene más incertidumbre, piense en perturbarlo. Veamos el caso discreto por simplicidad. Tome de un punto y agréguelo a otro de la siguiente manera: $\Delta p$

p_{i}^{'} = p - Δ p

$p_i'=p-\Delta p$

p_{j}^{'} = p + Δ p

$p_j'=p+\Delta p$

Ahora, veamos cómo cambia la entropía: Esto significa que cualquier perturbación de la distribución uniforme reduce la entropía (incertidumbre). Para mostrar lo mismo en caso continuo, tendría que usar cálculo de variaciones o algo por el estilo, pero en principio obtendrás el mismo tipo de resultado.

H - H^{'} = p_{i} \ln p_{i} - p_{i} \ln (p_{i} - Δ p) + p_{j} \ln p_{j} - p_{j} \ln (p_{j} + Δ p)

$H-H'=p_i\ln p_i-p_i\ln (p_i-\Delta p)+p_j\ln p_j-p_j\ln (p_j+\Delta p)$

= p \ln p - p \ln [p (1 - Δ p / p)] + p \ln p - p \ln [p (1 + Δ p / p)]

$=p\ln p-p\ln [p(1-\Delta p/p)]+p\ln p-p\ln [p(1+\Delta p/p)]$

= - \ln (1 - Δ p / p) - \ln (1 + Δ p / p) > 0

$=-\ln (1-\Delta p/p)-\ln (1+\Delta p/p)>0$

ACTUALIZACIÓN 2: La media de variables aleatorias uniformes es una variable aleatoria en sí misma, y proviene de la distribución de Bates . De CLT sabemos que la varianza de esta nueva variable aleatoria se reduce como . Entonces, la incertidumbre de su ubicación debe reducirse con el aumento de : estamos cada vez más seguros de que un gato está en el medio. Mi siguiente diagrama y código MATLAB muestra cómo la entropía disminuye de 0 para (distribución uniforme) a . Estoy usando la biblioteca de distribuciones31 aquí. $n$ $n\to\infty$ $n$ $n=1$ $n=13$

x = 0:0.01:1;
for k=1:5
    i = 1 + (k-1)*3;
    idx(k) = i;
    f = @(x)bates_pdf(x,i);
    funb=@(x)f(x).*log(f(x));
    fun = @(x)arrayfun(funb,x);
    h(k) = -integral(fun,0,1);
    subplot(1,5+1,k)

    plot(x,arrayfun(f,x))
    title(['Bates(x,' num2str(i) ')'])
    ylim([0 6])
end

subplot(1,5+1,5+1)
plot(idx,h)
title 'Entropy'

— Aksakal
fuente

(+1) Esperaré para ver otras interpretaciones, pero realmente me gusta esta. Entonces, ¿parece ser capaz de hacer uso de la entropía como una medida de certeza que necesita para compararla con otras distribuciones? Es decir, ¿el número por sí solo no te dice mucho?

— RustyStatistician

@RustyStatistician, no diría que su valor absoluto no tiene ningún significado, pero sí, es más útil cuando se usa para comparar los estados del sistema. La manera fácil de internalizar la entropía es pensar en ella como una medida de incertidumbre

— Aksakal

El problema con esta respuesta es que el término "incertidumbre" no se define.

— kjetil b halvorsen

el término queda incierto

— Aksakal

Esto esta muy bien.

— Astrid

Me gustaría agregar una respuesta directa a esta pregunta:

¿Qué me dice realmente esa cantidad?

Es intuitivo ilustrar eso en un escenario discreto. Suponga que arroja una moneda muy sesgada, diciendo que la probabilidad de ver una cara en cada lanzamiento es de 0.99. Cada cambio real le dice muy poca información porque casi ya sabe que será cabeza. Pero cuando se trata de una moneda más justa, no le resulta más difícil saber qué esperar, entonces cada lanzamiento le da más información que cualquier moneda sesgada. La cantidad de información obtenida al observar un solo lanzamiento se equipara con . $\log \frac{1}{p(x)}$

Lo que la cantidad de la entropía nos dice es la información que cada volteo real en promedio (ponderado) puede transmitir: . Cuanto más justa sea la moneda, mayor será la entropía, y una moneda completamente justa será máximamente informativa. $E \log \frac{1}{p(x)} = \sum p(x) \log \frac{1}{p(x)}$

— Lerner Zhang
fuente