"¿Cuál es la forma correcta más teórica de información / física para calcular la entropía de una imagen?"
Una excelente y oportuna pregunta.
Contrariamente a la creencia popular, de hecho es posible definir una entropía de información natural intuitiva (y teóricamente) para una imagen.
Considere la siguiente figura:
Podemos ver que la imagen diferencial tiene un histograma más compacto, por lo tanto, su entropía de información de Shannon es menor. Por lo tanto, podemos obtener una menor redundancia mediante el uso de entropía de Shannon de segundo orden (es decir, entropía derivada de datos diferenciales). Si podemos extender esta idea isotrópicamente a 2D, entonces podríamos esperar buenas estimaciones para la información-entropía de la imagen.
Un histograma bidimensional de gradientes permite la extensión 2D.
Podemos formalizar los argumentos y, de hecho, esto se ha completado recientemente. Recapitulando brevemente:
La observación de que la definición simple (ver, por ejemplo, la definición de MATLAB de entropía de imágenes) ignora la estructura espacial es crucial. Para comprender lo que está sucediendo, vale la pena volver brevemente al caso 1D. Desde hace tiempo se sabe que el uso del histograma de una señal para calcular su información / entropía de Shannon ignora la estructura temporal o espacial y proporciona una estimación pobre de la compresibilidad o redundancia inherente de la señal. La solución ya estaba disponible en el texto clásico de Shannon; use las propiedades de segundo orden de la señal, es decir, las probabilidades de transición. La observación en 1971 (Rice & Plaunt) que el mejor predictor de un valor de píxel en una exploración de trama es el valor del píxel anterior que conduce inmediatamente a un predictor diferencial y una entropía de Shannon de segundo orden que se alinea con ideas de compresión simples, como la codificación de longitud de ejecución. Estas ideas se refinaron a fines de los años 80, lo que resultó en algunas técnicas clásicas de codificación de imagen sin pérdida (diferencial) que todavía están en uso (PNG, JPG sin pérdida, GIF, JPG2000 sin pérdida) mientras que las wavelets y DCT solo se usan para la codificación con pérdida.
Pasando ahora a 2D; Los investigadores encontraron muy difícil extender las ideas de Shannon a dimensiones superiores sin introducir una dependencia de orientación. Intuitivamente, podríamos esperar que la información-entropía de Shannon de una imagen sea independiente de su orientación. También esperamos que las imágenes con una estructura espacial complicada (como el ejemplo de ruido aleatorio del interlocutor) tengan una mayor entropía de información que las imágenes con estructura espacial simple (como el ejemplo de escala de grises suave del interrogador). Resulta que la razón por la que fue tan difícil extender las ideas de Shannon de 1D a 2D es que hay una asimetría (unilateral) en la formulación original de Shannon que impide una formulación simétrica (isotrópica) en 2D. Una vez que se corrige la asimetría 1D, la extensión 2D puede proceder de manera fácil y natural.
Ir al grano (los lectores interesados pueden consultar la exposición detallada en la preimpresión de arXiv en https://arxiv.org/abs/1609.01117 ) donde la entropía de la imagen se calcula a partir de un histograma 2D de gradientes (función de densidad de probabilidad de gradiente).
Primero, el pdf 2D se calcula agrupando las estimaciones de las imágenes derivadas x e y. Esto se asemeja a la operación de agrupamiento utilizada para generar el histograma de intensidad más común en 1D. Las derivadas se pueden estimar mediante diferencias finitas de 2 píxeles calculadas en las direcciones horizontal y vertical. Para una imagen cuadrada de NxN f (x, y) calculamos los valores de NxN de derivada parcial fx y los valores de NxN de fy. Escaneamos la imagen diferencial y por cada píxel que usamos (fx, fy) para ubicar un contenedor discreto en la matriz de destino (PDF en 2D) que luego se incrementa en uno. Repetimos para todos los píxeles NxN. El pdf 2D resultante debe normalizarse para tener una probabilidad de unidad general (simplemente dividiendo por NxN logra esto). El PDF 2D ahora está listo para la siguiente etapa.
El cálculo de la entropía de información de Shannon en 2D a partir del PDF de gradiente en 2D es simple. La fórmula de suma logarítmica clásica de Shannon se aplica directamente, excepto por un factor crucial de la mitad que se origina a partir de consideraciones especiales de muestreo de banda ilimitada para una imagen de gradiente (consulte el artículo de arXiv para más detalles). El medio factor hace que la entropía 2D calculada sea aún más baja en comparación con otros métodos (más redundantes) para estimar la entropía 2D o la compresión sin pérdidas.
Lamento no haber escrito las ecuaciones necesarias aquí, pero todo está disponible en el texto de preimpresión. Los cálculos son directos (no iterativos) y la complejidad computacional es de orden (el número de píxeles) NxN. La entropía informática de Shannon final es independiente de la rotación y corresponde precisamente con el número de bits necesarios para codificar la imagen en una representación de gradiente no redundante.
Por cierto, la nueva medida de entropía 2D predice una entropía (intuitivamente agradable) de 8 bits por píxel para la imagen aleatoria y 0.000 bits por píxel para la imagen de gradiente suave en la pregunta original.