Preguntas etiquetadas con neural-networks

Las redes neuronales artificiales (ANN) son una amplia clase de modelos computacionales basados ​​libremente en redes neuronales biológicas. Abarcan NN de avance (incluidas las NN "profundas"), NN convolucionales, NN recurrentes, etc.

4
En CNN, ¿son iguales el muestreo ascendente y la convolución de transposición?
Los términos "muestreo ascendente" y "convolución de transposición" se usan cuando se está haciendo "deconvolución" (<- no es un buen término, pero déjenme usarlo aquí). Originalmente, pensé que significaban lo mismo, pero me parece que son diferentes después de leer estos artículos. alguien puede por favor aclarar? Transvolución de convolución …

1
¿Qué es exactamente un bloque de aprendizaje residual en el contexto de las redes residuales profundas en el aprendizaje profundo?
Estaba leyendo el artículo Aprendizaje residual profundo para el reconocimiento de imágenes y tuve dificultades para comprender con 100% de certeza lo que implica un bloqueo residual computacionalmente. Leyendo su periódico tienen la figura 2: que ilustra lo que se supone que es un Bloque residual. ¿El cálculo de un …

2
Diferentes definiciones de la función de pérdida de entropía cruzada
Comencé a aprender sobre redes neuronales con el tutorial de redes neuronales y aprendizaje de punto com. En particular, en el tercer capítulo hay una sección sobre la función de entropía cruzada, y define la pérdida de entropía cruzada como: C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) …



1

2
¿Qué tan profunda es la conexión entre la función softmax en ML y la distribución de Boltzmann en termodinámica?
La función softmax, comúnmente utilizada en redes neuronales para convertir números reales en probabilidades, es la misma función que la distribución de Boltzmann, la distribución de probabilidad sobre las energías para un conjunto de partículas en equilibrio térmico a una temperatura T dada en termodinámica. Puedo ver algunas razones heurísticas …




2
Diferencia entre una sola unidad LSTM y una red neuronal LSTM de 3 unidades
El LSTM en el siguiente código Keras input_t = Input((4, 1)) output_t = LSTM(1)(input_t) model = Model(inputs=input_t, outputs=output_t) print(model.summary()) puede ser representado como Entiendo que cuando llamamos a model.predict(np.array([[[1],[2],[3],[4]]]))la (única) unidad LSTM, primero se procesa el vector [1], luego [2] más la retroalimentación de la entrada anterior y así sucesivamente …


1
Aproximación de segundo orden de la función de pérdida (Libro de aprendizaje profundo, 7.33)
En el libro de Goodfellow (2016) sobre aprendizaje profundo, habló sobre la equivalencia de la parada temprana a la regularización L2 ( https://www.deeplearningbook.org/contents/regularization.html página 247). La aproximación cuadrática de la función de costo viene dada por:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) donde es la matriz de Hesse (Ec. 7.33). ¿Falta esto el término medio? …


3
Sensibilidad de escala de red neuronal convolucional
Por ejemplo, supongamos que estamos construyendo un estimador de edad, basado en la imagen de una persona. A continuación tenemos dos personas en trajes, pero la primera es claramente más joven que la segunda. (fuente: tinytux.com ) Hay muchas características que implican esto, por ejemplo, la estructura de la cara. …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.