La función softmax, comúnmente utilizada en redes neuronales para convertir números reales en probabilidades, es la misma función que la distribución de Boltzmann, la distribución de probabilidad sobre las energías para un conjunto de partículas en equilibrio térmico a una temperatura T dada en termodinámica.
Puedo ver algunas razones heurísticas claras por las que esto es práctico:
- No importa si los valores de entrada son negativos, softmax genera valores positivos que suman uno.
- Siempre es diferenciable, lo cual es útil para la propagación hacia atrás.
- Tiene un parámetro de 'temperatura' que controla cuán indulgente debe ser la red hacia valores pequeños (cuando T es muy grande, todos los resultados son igualmente probables, cuando es muy pequeño, solo se selecciona el valor con la entrada más grande).
¿La función de Boltzmann solo se usa como softmax por razones prácticas, o hay una conexión más profunda con la termodinámica / física estadística?