Entiendo que dado un conjunto de observaciones independientes el Estimador de máxima verosimilitud (o, de manera equivalente, el MAP con anterior plano / uniforme) que identifica los parámetros \ mathbf {θ} que producen la distribución del modelo p_ {modelo} \ izquierda (\, \ cdot \,; \ mathbf {θ} \ right) que mejor coincida con esas observaciones será
o, más convenientemente
y vea el papel que puede desempeñar en la definición de una función de pérdida para redes neuronales profundas de múltiples clases, en la que corresponde a los parámetros entrenables de la red (por ejemplo, y las observaciones son los pares de activaciones de entrada y las correspondientes etiquetas de clase correctas , = { }, tomando
Lo que no entiendo es cómo esto se relaciona con la llamada "entropía cruzada" de la salida correcta (vectorizada), , y las activaciones de salida correspondientes de la red, que se utiliza en la práctica cuando la medición de error / pérdida durante el entrenamiento . Hay varios problemas relacionados:
Activaciones "como probabilidades"
Uno de los pasos para establecer la relación entre MLE y la entropía cruzada es utilizar las activaciones de salida "como si" fueran probabilidades. Pero no está claro para mí que lo sean, o al menos que lo sean .
Al calcular el error de entrenamiento, específicamente, al llamarlo una "pérdida de entropía cruzada", se supone que (después de normalizar las activaciones para sumar 1)
o
para que podamos escribir
y por lo tanto
Pero si bien esto hace que una probabilidad (en la medida en que algo sea), no impone restricciones a las otras activaciones.
¿Puede realmente son PMF en ese caso? ¿Hay algo que haga que no sean, de hecho, probabilidades (y simplemente "me gusten") )?
Limitación a la categorización.
El paso crucial anterior para equiparar MLE con entropía cruzada se basa completamente en la estructura "one-hot" de que caracteriza un problema de aprendizaje de múltiples clases (etiqueta única). Cualquier otra estructura para haría imposible pasar de a .
¿La ecuación de MLE y minimización de entropía cruzada se limita a los casos en que son "one-hot"?
Diferentes probabilidades de entrenamiento y predicción
Durante la predicción, casi siempre es el caso que
lo que resulta en probabilidades de predicción correctas que son diferentes de las probabilidades aprendidas durante el entrenamiento a menos que sea confiablemente el caso que
¿Es este el caso de manera confiable? ¿Es probable que sea al menos aproximadamente cierto? ¿O hay algún otro argumento que justifique esta ecuación del valor de la activación aprendida en la posición de la etiqueta con la probabilidad de que el valor máximo de las activaciones aprendidas ocurra allí?
Entropía y teoría de la información.
Incluso suponiendo que se aborden las preocupaciones anteriores y que las activaciones sean PMF válidas (o que puedan tratarse de manera significativa como tales), de modo que el papel desempeñado por la entropía cruzada en la computación no sea problemático, no está claro Me pregunto por qué es útil o significativo hablar sobre la entropía del , ya que la entropía de Shanon se aplica a un tipo de codificación , que no es la que se usa para entrenar la red.
¿Qué papel juega la entropía teórica de la información en la interpretación de la función de costo, en lugar de simplemente proporcionar una herramienta (en forma de entropía cruzada) para calcular una (que corresponde a MLE)?
softmax_cross_entropy_with_logits
: calculan y, por lo tanto, que define una red "diseñada para" producir probabilidades (al menos en la ubicación de la etiqueta). ¿No?