Este no es realmente mi campo, así que algunas reflexiones:
Comenzaré con el concepto de sorpresa . ¿Qué significa sorprenderse? Por lo general, significa que sucedió algo que no se esperaba que sucediera. Entonces, sorprende que sea un concepto probabilístico y puede explicarse como tal (IJ Good ha escrito sobre eso). Ver también Wikipedia y Bayesian Surprise .
Tomemos el caso particular de una situación de sí / no, algo puede suceder o no. Sucede con probabilidad p . Digamos, si p = 0.9 y sucede, no estás realmente sorprendido. Si p=0.05 y sucede, estás algo sorprendido. Y si p=0.0000001 y sucede, estás realmente sorprendido. Entonces, una medida natural del "valor sorpresa en el resultado observado" es alguna función (anti) monótona de la probabilidad de lo que sucedió. Parece natural (y funciona bien ...) tomar el logaritmo de probabilidad de lo que sucedió, y luego colocamos un signo menos para obtener un número positivo. Además, al tomar el logaritmo nos concentramos en el orden de la sorpresa y, en la práctica, las probabilidades a menudo solo se conocen por orden, más o menos .
Entonces, definimos
Surprise(A)=−logp(A)
donde A es el resultado observado, y p(A) es su probabilidad.
Ahora podemos preguntar cuál es la sorpresa esperada . Sea X una variable aleatoria de Bernoulli con probabilidad p . Tiene dos posibles resultados, 0 y 1. Los valores de sorpresa respectivos son
Surprise(0)Surprise(1)=−log(1−p)=−logp
entonces la sorpresa al observarXes en sí misma una variable aleatoria con expectativa
p⋅−logp+(1−p)⋅−log(1−p)
y eso es --- ¡sorpresa! --- la entropía deX! ¡Así que seesperaentropíasorpresa!
Ahora, esta pregunta es sobre la entropía máxima . ¿Por qué alguien querría usar una distribución de entropía máxima? ¡Bueno, debe ser porque quieren sorprenderse al máximo! ¿Por qué alguien querría eso?
Una forma de verlo es la siguiente: desea aprender sobre algo, y para ese objetivo establece algunas experiencias de aprendizaje (o experimentos ...). Si ya sabía todo sobre este tema, siempre puede predecir perfectamente, por lo que nunca se sorprenderá. Entonces nunca obtienes una nueva experiencia, así que no aprendas nada nuevo (pero ya sabes todo --- no hay nada que aprender, así que está bien). En la situación más típica en la que está confundido, no puede predecir perfectamente, ¡hay una oportunidad de aprendizaje! Esto lleva a la idea de que podemos medir la "cantidad de aprendizaje posible" por la sorpresa esperada , es decir, la entropía. Entonces, maximizar la entropía no es más que maximizar las oportunidades de aprendizaje. Eso suena como un concepto útil, que podría ser útil en el diseño de experimentos y esas cosas.
Un ejemplo poético es el bien conocido
Wenn einer eine reise macht, dann kann er was erzählen ...
Un ejemplo práctico: desea diseñar un sistema para pruebas en línea (en línea, lo que significa que no todos reciben las mismas preguntas, las preguntas se eligen dinámicamente según las respuestas anteriores, optimizadas, de alguna manera, para cada persona).
pagspp=0.5
XX{X=x}−logpxf(x)fSurprise(x)=−logf(x)
XE{−logf(X)}=−∫f(x)logf(x)dx
XX
X