Estoy tratando de abrirme camino a través del primer conjunto de problemas del material del curso en línea de la clase de Stanford cs224d y tengo algunos problemas con el problema 3A: cuando uso el modelo de omisión de word2vec con la función de predicción softmax y la función de pérdida de entropía cruzada, desea calcular los gradientes con respecto a los vectores de palabras pronosticados. Entonces, dada la función softmax:
y función de entropía cruzada:
necesitamos calcular
Mis pasos son los siguientes:
ahora dado es un vector caliente y yo es la clase correcta:
¿Es esto correcto o podría simplificarse más? Quiero tratar de asegurarme de que estoy en el camino correcto ya que las soluciones del problema no se publican en línea. Además, hacer que las tareas escritas sean correctas es importante para poder realizar correctamente las tareas de programación.