Comparación entre MaxEnt, ML, Bayes y otro tipo de métodos de inferencia estadística

21

De ninguna manera soy estadístico (he tenido un curso de estadística matemática pero nada más que eso), y recientemente, mientras estudiaba teoría de la información y mecánica estadística, conocí esta cosa llamada "medida de incertidumbre" / "entropía". Leí la derivación de Khinchin como una medida de incertidumbre y tenía sentido para mí. Otra cosa que tenía sentido fue la descripción de Jaynes de MaxEnt para obtener una estadística cuando se conoce la media aritmética de una o más funciones / s en la muestra (suponiendo que acepta como una medida de la incertidumbre por supuesto). $-\sum p_i\ln p_i$

Así que busqué en la red para encontrar la relación con otros métodos de inferencia estadística, y Dios estaba confundido. Por ejemplo, este documento sugiere, suponiendo que lo hice bien, que solo obtenga un estimador de ML bajo una reformulación adecuada del problema; MacKey, en su libro, dice que MaxEnt puede darte cosas raras, y no deberías usarlo ni siquiera para una estimación inicial en una inferencia bayesiana; etc. Tengo problemas para encontrar buenas comparaciones.

Mi pregunta es, ¿podría proporcionar una explicación y / o buenas referencias de puntos débiles y fuertes de MaxEnt como método de inferencia estadística con comparaciones cuantitativas con otros métodos (cuando se aplica a modelos de juguetes, por ejemplo)?

entropy inference

— Francesco
fuente

19

Los métodos de inferencia Bayesian y MaxEnt corresponden a diferentes formas de incorporar información en su procedimiento de modelado. Ambos se pueden poner en terreno axiomático ( "Axiomas de máxima entropía" de John Skilling y "Álgebra de inferencia probable" de Cox ).

El enfoque bayesiano es sencillo de aplicar si su conocimiento previo se presenta en forma de una función de valor real medible sobre su espacio de hipótesis, llamado "previo". MaxEnt es sencillo cuando la información viene como un conjunto de restricciones duras en su espacio de hipótesis. En la vida real, el conocimiento no se presenta en forma "previa" ni en forma "restrictiva", por lo que el éxito de su método depende de su capacidad para representar su conocimiento en la forma correspondiente.

En un problema de juguete, el promedio del modelo bayesiano le dará la pérdida de registro promedio más baja (promediada en muchos sorteos del modelo) cuando el anterior coincide con la verdadera distribución de hipótesis. El enfoque MaxEnt le dará la pérdida de registro más baja en el peor de los casos cuando se cumplan sus restricciones (el peor de todos los anteriores posibles)

ETJaynes, considerado padre de los métodos "MaxEnt" también se basó en los métodos bayesianos. En la página 1412 de su libro , da un ejemplo donde el enfoque bayesiano resultó en una buena solución, seguido de un ejemplo donde el enfoque MaxEnt es más natural.

La máxima probabilidad esencialmente toma que el modelo se encuentre dentro de un espacio de modelo predeterminado e intente ajustarlo "lo más difícil posible" en el sentido de que tendrá la mayor sensibilidad a los datos de todos los métodos de selección de modelos restringidos a dicho modelo espacio. Mientras que MaxEnt y Bayesian son marcos, ML es un método de ajuste de modelo concreto, y para algunas elecciones de diseño particulares, ML puede terminar el método saliendo del enfoque Bayesian o MaxEnt. Por ejemplo, MaxEnt con restricciones de igualdad es equivalente al ajuste de máxima verosimilitud de una determinada familia exponencial. Del mismo modo, una aproximación a la inferencia bayesiana puede conducir a una solución regularizada de máxima verosimilitud. Si elige su previo para hacer que sus conclusiones sean extremadamente sensibles a los datos, el resultado de la inferencia bayesiana corresponderá al ajuste de máxima verosimilitud. Por ejemplo, $p$

Los éxitos del aprendizaje automático de la vida real a menudo son una mezcla de varias filosofías. Por ejemplo, los "Campos aleatorios" se derivaron de los principios de MaxEnt. La implementación más popular de la idea, CRF regularizado, implica agregar un "previo" en los parámetros. Como resultado, el método no es realmente MaxEnt ni Bayesiano, sino que está influenciado por ambas escuelas de pensamiento.

He recopilado algunos enlaces sobre fundamentos filosóficos de los enfoques Bayesian y MaxEnt aquí y aquí .

Nota sobre la terminología: a veces las personas llaman Bayesiano a su método simplemente si usa la regla de Bayes en algún momento. Del mismo modo, "MaxEnt" a veces se usa para algún método que favorece las soluciones de alta entropía. Esto no es lo mismo que "Inferencia MaxEnt" o "Inferencia Bayesiana" como se describió anteriormente

— Yaroslav Bulatov
fuente

1

Gracias. No pensé que "La lógica de la ciencia" hablara de estas cosas también, definitivamente voy a leer ese libro.

— Francesco

19

Para una crítica entretenida de los métodos de máxima entropía, recomendaría leer algunas publicaciones antiguas de grupos de noticias sobre sci.stat.math y sci.stat.consult, particularmente las de Radford Neal:

No conozco ninguna comparación entre maxent y otros métodos: parte del problema parece ser que maxent no es realmente un marco, sino una directiva ambigua ("cuando se enfrenta a un desconocido, simplemente maximiza la entropía"), que es interpretado de diferentes maneras por diferentes personas.

— Simon Byrne
fuente

44

(+1) Ese hilo de 2002 es un gran intercambio de ideas.

— whuber

1

Tenga en cuenta que la "derivación de Wallis" de maxent dada por Edwin Jaynes en Teoría de la probabilidad: la lógica de la ciencia da una razón "experimental" para maximizar la entropía. En distribuciones discretas, si partimos del principio de indiferencia (PID), y luego básicamente realizamos un muestreo de rechazo en las probabilidades, utilizando las restricciones para aceptar o rechazar las muestras uniformes aleatorias. La probabilidad resultante es entonces arbitrariamente cercana a la distribución máxima (discreta).

— probabilidadislogica

3

Es cierto que en el pasado, MaxEnt y Bayes han tratado con diferentes tipos o formas de información. Yo diría que Bayes también usa restricciones "duras", la probabilidad.

En cualquier caso, ya no es un problema, ya que la Regla de Bayes (no la regla del producto) se puede obtener de Entropía relativa máxima (MrE), y no de una manera ambigua:

Es un mundo nuevo ...