En la literatura de aprendizaje automático, para representar una distribución de probabilidad, a menudo se usa la función softmax. ¿Hay alguna razón para esto? ¿Por qué no se usa otra función?
En la literatura de aprendizaje automático, para representar una distribución de probabilidad, a menudo se usa la función softmax. ¿Hay alguna razón para esto? ¿Por qué no se usa otra función?
Respuestas:
Desde una perspectiva de optimización, tiene algunas buenas propiedades en términos de diferenciabilidad. Para muchos problemas de aprendizaje automático, es una buena opción para la clasificación 1-de-N.
Desde una perspectiva de aprendizaje profundo: también se podría argumentar que, en teoría, el uso de una red profunda con un clasificador softmax en la parte superior puede representar cualquier función de probabilidad de clase N sobre el espacio de características, ya que los MLP tienen la propiedad de Aproximación Universal .
Softmax también es una generalización de la función sigmoidea logística y, por lo tanto, tiene las propiedades del sigmoide, como la facilidad de diferenciación y el estar en el rango de 0-1. La salida de una función sigmoidea logística también está entre 0 y 1 y, por lo tanto, es naturalmente una opción adecuada para representar la probabilidad. Su derivada también se exopera en términos de su propia producción. Sin embargo, si su función tiene una salida vectorial, debe usar la función Softmax para obtener la distribución de probabilidad sobre el vector de salida. Hay otras ventajas de usar Softmax que Indie AI ha mencionado, aunque no necesariamente tiene nada que ver con la teoría de la Aproximación Universal, ya que Softmax no es una función que solo se usa para Redes Neuronales.
Referencias