El problema es:
Derive el gradiente con respecto a la capa de entrada para una sola red neuronal de capa oculta usando sigmoide para entrada -> oculto, softmax para oculto -> salida, con una pérdida de entropía cruzada.
Puedo pasar la mayor parte de la derivación usando la regla de la cadena, pero no estoy seguro de cómo realmente "encadenarlos" juntos.
Definir algunas anotaciones.
, es función sigmoide
,
, es función softmax
, es un vector de etiqueta real
Luego, por la regla de la cadena,
Los gradientes individuales son:
Ahora tenemos que encadenar las definiciones juntas. En variable única esto es fácil, simplemente multiplicamos todo juntos. En vectores, no estoy seguro de si usar la multiplicación por elementos o la multiplicación de matrices.
Donde es la multiplicación de vectores por elementos, y es una matriz multiplicada. Esta combinación de operaciones es la única forma en que podría para obtener un vector de dimensión , que sé que tiene que ser.∗ 1 ⋅ D x ∂ J
Mi pregunta es: ¿cuál es la forma de principios para que yo descubra qué operador usar? Estoy específicamente confundido por la necesidad del elemento inteligente entre y . h
¡Gracias!