Heurísticamente, la función de densidad de probabilidad en con máxima entropía resulta ser la que corresponde a la menor cantidad de conocimiento de , en otras palabras, la distribución uniforme.{ x 1 , x 2 , . . , . x n }{x1,x2,..,.xn}{x1,x2,..,.xn}
Ahora, para una prueba más formal, considere lo siguiente:
Una función de densidad de probabilidad en es un conjunto de números reales no negativos que suman 1. La entropía es una función continua de las -tuplas , y estos puntos se encuentran en un subconjunto compacto de , por lo que hay una -tupla donde se maximiza la entropía. Queremos mostrar que esto ocurre en y en ningún otro lugar.p 1 , . . . , P n n ( p 1 , . . . , P n ) R n n ( 1 / n , . . . , 1 / n ){x1,x2,..,.xn}p1,...,pnn(p1,...,pn)Rnn(1/n,...,1/n)
Supongamos que no son todos iguales, digamos . (Claramente ) Encontraremos una nueva densidad de probabilidad con mayor entropía. Luego se sigue, ya que la entropía se maximiza en alguna -tupla, esa entropía se maximiza de manera única en la -tupla con para todo .p 1 < p 2 n ≠ 1 n n p i = 1 / n ipjp1<p2n≠1nnpi=1/ni
Desde , para pequeños positivos tenemos . La entropía de menos la entropía de es igual a ε p 1 + ε < p 2 - ε { p 1 + ε , p 2 - ε , p 3 , . . . , P n } { p 1 , p 2 , p 3 , . . . , p n }p1<p2εp1+ε<p2−ε{p1+ε,p2−ε,p3,...,pn}{p1,p2,p3,...,pn}
ε-p1log(1+ε
−p1log(p1+εp1)−εlog(p1+ε)−p2log(p2−εp2)+εlog(p2−ε)
Para completar la prueba, queremos mostrar que esto es positivo para suficientemente pequeño . Reescribe la ecuación anterior como
ε−p1log(1+εp1)−ε(logp1+log(1+εp1))−p2log(1−εp2)+ε(logp2+log(1−εp2))
Recordando que para pequeña , la ecuación anterior es
que es positivo cuando es lo suficientemente pequeño como .x - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) ε p 1 < p 2log(1+x)=x+O(x2)x
−ε−εlogp1+ε+εlogp2+O(ε2)=εlog(p2/p1)+O(ε2)
εp1<p2
Una prueba menos rigurosa es la siguiente:
Considere primero el siguiente Lema:
Let y ser funciones continuas de densidad de probabilidad en un intervalo
en los números reales, con y en . Tenemos
si ambas integrales existen. Además, existe igualdad si y solo si para todo .p(x)q(x)Ip≥0q>0I
−∫Iplogpdx≤−∫Iplogqdx
p(x)=q(x)x
Ahora, supongamos que es cualquier función de densidad de probabilidad en , con . Dejando para todo ,
que es la entropía de . Por lo tanto, nuestro Lema dice , con igualdad si y solo si es uniforme.{ x 1 , . . . , x n } p i = p ( x i )p{x1,...,xn}pi=p(xi)qi=1/ni
−∑i=1npilogqi=∑i=1npilogn=logn
qh(p)≤h(q)p
Además, wikipedia también tiene una breve discusión sobre esto: wiki