Preguntas etiquetadas con derivative

Para preguntas sobre el tema que involucran el concepto matemático de una derivada, es decir, . Para preguntas puramente matemáticas sobre la derivada, es mejor preguntar en matemáticas SE https://math.stackexchange.com/ rereXF(X)

6
Backpropagation con Softmax / Cross Entropy
Estoy tratando de entender cómo funciona la retropropagación para una capa de salida softmax / cross-entropy. La función de error de entropía cruzada es E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j con ttt y ooo como objetivo y salida en la neurona jjj , respectivamente. La suma está sobre cada neurona en la …



1
¿Derivación del cambio de variables de una función de densidad de probabilidad?
En el libro de reconocimiento de patrones y aprendizaje automático (fórmula 1.27), da dondex=g(y),px(x)es el pdf que corresponde apy(y)py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) |x=g(y)x=g(y)x=g(y)px(x)px(x)p_x(x)py(y)py(y)p_y(y) con respecto al cambio de la variable. Los libros dicen que es porque las observaciones que caen en el rango , …


2
Derivada de un proceso gaussiano
Creo que la derivada de un proceso gaussiano (GP) es otra GP, por lo que me gustaría saber si hay ecuaciones de forma cerrada para las ecuaciones de predicción de la derivada de una GP. En particular, estoy usando el núcleo de covarianza exponencial al cuadrado (también llamado gaussiano) y …

1
Aproximación de segundo orden de la función de pérdida (Libro de aprendizaje profundo, 7.33)
En el libro de Goodfellow (2016) sobre aprendizaje profundo, habló sobre la equivalencia de la parada temprana a la regularización L2 ( https://www.deeplearningbook.org/contents/regularization.html página 247). La aproximación cuadrática de la función de costo viene dada por:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) donde es la matriz de Hesse (Ec. 7.33). ¿Falta esto el término medio? …

1
Interpretación de la derivada del radón-Nikodym entre medidas de probabilidad?
He visto en algunos puntos el uso de la derivada Radon-Nikodym de una medida de probabilidad con respecto a otra, especialmente en la divergencia Kullback-Leibler, donde es la derivada de la medida de probabilidad de un modelo para algún parámetro arbitrario con respecto al parámetro real :θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} Donde …




1
Derivados de gradiente y vector: ¿vector de fila o columna?
Muchas referencias (incluidas wikipedia y http://www.atmos.washington.edu/~dennis/MatrixCalculus.pdf y http://michael.orlitzky.com/articles/the_derivative_of_a_quadratic_form.php ) definen la derivada de un funcionar por un vector como derivadas parciales de la función organizada en una fila (por lo que una derivada de una función de valor escalar es un vector de fila). En esta convención, el gradiente y …
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.