Diferenciación de entropía cruzada

He estado tratando de crear un programa para entrenar redes neuronales en mi computadora. Para la red en cuestión, he decidido usar la función Error de entropía cruzada:

E = - \sum_{j} t_{j} \ln o_{j}

$E = -\sum_jt_j\ln o_j$

Dónde $t_j$ es la salida objetivo para la neurona $j$ y $o_j$ es la salida de esa neurona, intentando predecir $t_j$ .

Quiero saber que $\frac{\delta E}{\delta o_j}$ es para alguna neurona $j$ . Mi intuición (más mi conocimiento limitado del cálculo) me lleva a creer que este valor debería ser $-\frac{t_j}{o_j}$ .

Sin embargo, esto no parece ser correcto. Cross Entropy se usa a menudo en tándem con la función softmax, de modo que

o_{j} = \frac{e^{z_{j}}}{\sum_{k} e^{z_{k}}}

$o_j = \frac{e^{z_j}}{\sum_ke^{z_k}}$ donde z es el conjunto de entradas a todas las neuronas en la capa softmax ( ver aquí ).

De este archivo , deduzco que:

\frac{δ o_{j}}{δ z_{j}} = o_{j} (1 - o_{j})

$\frac{\delta o_j}{\delta z_j} = o_j(1 - o_j)$

De acuerdo con esta pregunta :

\frac{δ E}{δ z_{j}} = t_{j} - o_{j}

$\frac{\delta E}{\delta z_j} = t_j - o_j$ Pero esto está en conflicto con mi conjetura anterior de

\frac{δ E}{δ o_{j}}

$\frac{\delta E}{\delta o_j}$ . ¿Por qué?

\frac{δ E_{j}}{δ z_{j}} = \frac{δ E_{j}}{δ o_{j}} \frac{δ o_{j}}{δ z_{j}}

$\frac{\delta E_j}{\delta z_j}=\frac{\delta E_j}{\delta o_j}\frac{\delta o_j}{\delta z_j}$

\Rightarrow \frac{δ E_{j}}{δ o_{j}} = \frac{δ E_{j}}{δ z_{j}} \div \frac{δ o_{j}}{δ z_{j}}

$\Rightarrow\frac{\delta E_j}{\delta o_j}=\frac{\delta E_j}{\delta z_j}\div\frac{\delta o_j}{\delta z_j}$

= \frac{t_{j} - o_{j}}{o_{j} (1 - o_{j})}

$= \frac{t_j-o_j}{o_j(1-o_j)}$ en contradicción directa con mi solución anterior de

- \frac{t_{j}}{o_{j}}

$-\frac{t_j}{o_j}$ Entonces, ¿cuál (si alguna) solución para

\frac{δ E_{j}}{δ o_{j}}

$\frac{\delta E_j}{\delta o_j}$ es correcto y por qué?

— Geno Racklin Asher
fuente

Tu $\frac{\partial E}{\partial o_j}$ es correcto, pero $\frac{\partial E}{\partial z_j}$ debiera ser

\frac{\partial E}{\partial z_{j}} = \sum_{i} \frac{\partial E}{\partial o_{i}} \frac{\partial o_{i}}{\partial z_{j}}

$\frac{\partial E}{\partial z_j}=\sum_i\frac{\partial E}{\partial o_i}\frac{\partial o_i}{\partial z_j}$ cuando

i = j

$i=j$ , utilizando los resultados dados en la publicación que tenemos

\frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial z_{j}} = - \frac{t_{j}}{o_{j}} o_{j} (1 - o_{j}) = t_{j} o_{j} - t_{j}

$\frac{\partial E}{\partial o_j}\frac{\partial o_j}{\partial z_j}=-\frac{t_j}{o_j}o_j(1-o_j)=t_jo_j-t_j$ cuando

i \neq j

$i\neq j$

\frac{\partial o_{i}}{\partial z_{j}} = \frac{\partial \frac{e^{z_{i}}}{\sum_{k} e^{z_{k}}}}{\partial z_{j}} = - \frac{e^{z_{i}}}{(\sum_{k} e^{z_{k}})^{2}} e^{z_{j}} = - o_{i} o_{j}

$\frac{\partial o_i}{\partial z_j}=\frac{\partial \frac{e^{z_i}}{\sum_ke^{z_k}}}{\partial z_j}=-\frac{e^{z_i}}{(\sum_ke^{z_k})^2}e^{z_j}=-o_io_j$

\frac{\partial E}{\partial o_{i}} \frac{\partial o_{i}}{\partial z_{j}} = - \frac{t_{i}}{o_{i}} (- o_{i} o_{j}) = t_{i} o_{j}

$\frac{\partial E}{\partial o_i}\frac{\partial o_i}{\partial z_j}=-\frac{t_i}{o_i}(-o_io_j)=t_io_j$ entonces el resumen es

\frac{\partial E}{\partial z_{j}} = \sum_{i} \frac{\partial E}{\partial o_{i}} \frac{\partial o_{i}}{\partial z_{j}} = \sum_{i} t_{i} o_{j} - t_{j}

$\frac{\partial E}{\partial z_j}=\sum_i\frac{\partial E}{\partial o_i}\frac{\partial o_i}{\partial z_j}=\sum_it_io_j-t_j$ ya que

t

$t$ es un vector único,

\sum_{i} t_{i} = 1

$\sum_it_i=1$ por lo tanto

\frac{\partial E}{\partial z_{j}} = o_{j} - t_{j}

$\frac{\partial E}{\partial z_j}=o_j-t_j$ También vea esta pregunta .

— dontloo
fuente