Preguntas etiquetadas con neural-networks

Las redes neuronales artificiales (ANN) son una amplia clase de modelos computacionales basados ​​libremente en redes neuronales biológicas. Abarcan NN de avance (incluidas las NN "profundas"), NN convolucionales, NN recurrentes, etc.

3
Capa Softmax en una red neuronal
Estoy tratando de agregar una capa softmax a una red neuronal entrenada con retropropagación, así que estoy tratando de calcular su gradiente. La salida de softmax es hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}} dondejjjes el número de neurona de salida. Si lo obtengo, me sale ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Similar a la regresión logística. Sin embargo, …

2
¿Qué es maxout en la red neuronal?
¿Alguien puede explicar qué hacen las unidades maxout en una red neuronal? ¿Cómo funcionan y en qué se diferencian de las unidades convencionales? Traté de leer el artículo de 2013 "Maxout Network" de Goodfellow et al. (del grupo del profesor Yoshua Bengio), pero no lo entiendo del todo.

1
Redes neuronales: impulso de cambio de peso y decadencia de peso
Momentum se usa para disminuir las fluctuaciones en los cambios de peso en iteraciones consecutivas:αα\alpha dondeE(w)es la función de error,w- el vector de pesos,η- tasa de aprendizaje.Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E(w)E(w)E({\bf w})ww{\bf w}ηη\eta La disminución de peso penaliza los cambios de peso:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial …



4
¿Cómo resuelve la función de activación rectilínea el problema del gradiente de fuga en las redes neuronales?
Encontré la unidad lineal rectificada (ReLU) elogiada en varios lugares como una solución al problema del gradiente de fuga para las redes neuronales. Es decir, uno usa max (0, x) como función de activación. Cuando la activación es positiva, es obvio que es mejor que, digamos, la función de activación …







3
Aprendizaje automático: ¿Debo usar una entropía cruzada categórica o una pérdida de entropía cruzada binaria para las predicciones binarias?
En primer lugar, me di cuenta de que si necesito realizar predicciones binarias, tengo que crear al menos dos clases a través de una codificación en caliente. ¿Es esto correcto? Sin embargo, ¿es la entropía cruzada binaria solo para predicciones con una sola clase? Si tuviera que usar una pérdida …


4
¿Cómo evita LSTM el problema del gradiente de fuga?
El LSTM se inventó específicamente para evitar el problema del gradiente de fuga. Se supone que debe hacer eso con el carrusel de error constante (CEC), que en el diagrama a continuación (de Greff et al. ) Corresponde al bucle alrededor de la celda . (fuente: deeplearning4j.org ) Y entiendo …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.