Estadísticas y Big Data neural-networks

3

Estoy tratando de agregar una capa softmax a una red neuronal entrenada con retropropagación, así que estoy tratando de calcular su gradiente. La salida de softmax es hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}} dondejjjes el número de neurona de salida. Si lo obtengo, me sale ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Similar a la regresión logística. Sin embargo, …

43 neural-networks

2

¿Qué es maxout en la red neuronal?

¿Alguien puede explicar qué hacen las unidades maxout en una red neuronal? ¿Cómo funcionan y en qué se diferencian de las unidades convencionales? Traté de leer el artículo de 2013 "Maxout Network" de Goodfellow et al. (del grupo del profesor Yoshua Bengio), pero no lo entiendo del todo.

42 machine-learning neural-networks

1

Redes neuronales: impulso de cambio de peso y decadencia de peso

Momentum se usa para disminuir las fluctuaciones en los cambios de peso en iteraciones consecutivas:αα\alpha dondeE(w)es la función de error,w- el vector de pesos,η- tasa de aprendizaje.Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E(w)E(w)E({\bf w})ww{\bf w}ηη\eta La disminución de peso penaliza los cambios de peso:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial …

41 neural-networks optimization regularization gradient-descent

4

¿Por qué la función sigmoidea en lugar de cualquier otra cosa?

¿Por qué la función sigmoide estándar de facto, , es tan popular en las redes neuronales (no profundas) y la regresión logística?11+e−x11+e−x\frac{1}{1+e^{-x}} ¿Por qué no utilizamos muchas de las otras funciones derivables, con un tiempo de cálculo más rápido o una disminución más lenta (por lo que el gradiente de …

40 logistic neural-networks least-squares

3

¿Cuáles son las diferencias entre los modelos ocultos de Markov y las redes neuronales?

Me estoy mojando los pies en las estadísticas, así que lamento si esta pregunta no tiene sentido. He utilizado modelos de Markov para predecir estados ocultos (casinos injustos, tiradas de dados, etc.) y redes neuronales para estudiar los clics de los usuarios en un motor de búsqueda. Ambos tenían estados …

40 data-mining algorithms neural-networks markov-process

4

¿Cómo resuelve la función de activación rectilínea el problema del gradiente de fuga en las redes neuronales?

Encontré la unidad lineal rectificada (ReLU) elogiada en varios lugares como una solución al problema del gradiente de fuga para las redes neuronales. Es decir, uno usa max (0, x) como función de activación. Cuando la activación es positiva, es obvio que es mejor que, digamos, la función de activación …

40 machine-learning neural-networks deep-learning gradient-descent

7

Normalización y estandarización de datos en redes neuronales.

Estoy tratando de predecir el resultado de un sistema complejo utilizando redes neuronales (ANN). Los valores de resultado (dependientes) oscilan entre 0 y 10,000. Las diferentes variables de entrada tienen diferentes rangos. Todas las variables tienen distribuciones más o menos normales. Considero diferentes opciones para escalar los datos antes del …

40 machine-learning neural-networks multidimensional-scaling

2

ImageNet: ¿cuál es la tasa de error top-1 y top-5?

En los documentos de clasificación de ImageNet, las tasas de error top-1 y top-5 son unidades importantes para medir el éxito de algunas soluciones, pero ¿cuáles son esas tasas de error? En la clasificación de ImageNet con redes neuronales convolucionales profundas por Krizhevsky et al. todas las soluciones basadas en …

38 classification neural-networks error measurement-error image-processing

5

¿Cómo visualizar / comprender lo que está haciendo una red neuronal?

Las redes neuronales a menudo se tratan como "cajas negras" debido a su compleja estructura. Esto no es ideal, ya que a menudo es beneficioso tener una comprensión intuitiva de cómo funciona internamente un modelo. ¿Cuáles son los métodos para visualizar cómo funciona una red neuronal capacitada? Alternativamente, ¿cómo podemos …

37 data-visualization neural-networks

7

¿Por qué la regularización no resuelve el hambre de redes neuronales profundas por los datos?

Un problema que he visto con frecuencia planteado en el contexto de las redes neuronales en general, y las redes neuronales profundas en particular, es que están "hambrientos de datos", es decir, no funcionan bien a menos que tengamos un gran conjunto de datos con el que entrenar a la …

37 neural-networks deep-learning regularization

4

¿Qué debo hacer cuando mi red neuronal no se generaliza bien?

Estoy entrenando una red neuronal y la pérdida de entrenamiento disminuye, pero la pérdida de validación no lo hace, o disminuye mucho menos de lo que esperaría, en base a referencias o experimentos con arquitecturas y datos muy similares. ¿Cómo puedo arreglar esto? En cuanto a la pregunta ¿Qué debo …

37 neural-networks deep-learning

4

Diferencia entre "kernel" y "filter" en CNN

¿Cuál es la diferencia entre los términos "núcleo" y "filtro" en el contexto de las redes neuronales convolucionales?

37 neural-networks terminology deep-learning conv-neural-network

3

Aprendizaje automático: ¿Debo usar una entropía cruzada categórica o una pérdida de entropía cruzada binaria para las predicciones binarias?

En primer lugar, me di cuenta de que si necesito realizar predicciones binarias, tengo que crear al menos dos clases a través de una codificación en caliente. ¿Es esto correcto? Sin embargo, ¿es la entropía cruzada binaria solo para predicciones con una sola clase? Si tuviera que usar una pérdida …

36 machine-learning neural-networks loss-functions tensorflow cross-entropy

5

¿La función de costo de la red neuronal no es convexa?

La función de costo de la red neuronal es , y se afirma que no es convexa . No entiendo por qué es así, ya que, como veo, es bastante similar a la función de costo de la regresión logística, ¿verdad?J(W,b)J(W,b)J(W,b) Si no es convexo, entonces la derivada de segundo …

36 neural-networks loss-functions

4

¿Cómo evita LSTM el problema del gradiente de fuga?

El LSTM se inventó específicamente para evitar el problema del gradiente de fuga. Se supone que debe hacer eso con el carrusel de error constante (CEC), que en el diagrama a continuación (de Greff et al. ) Corresponde al bucle alrededor de la celda . (fuente: deeplearning4j.org ) Y entiendo …

35 neural-networks lstm

Preguntas etiquetadas con neural-networks