9
¿Por qué usar softmax en lugar de la normalización estándar?
En la capa de salida de una red neuronal, es típico usar la función softmax para aproximar una distribución de probabilidad: Esto es costoso de calcular debido a los exponentes. ¿Por qué no simplemente realizar una transformación Z para que todas las salidas sean positivas y luego normalizar simplemente dividiendo …