Preguntas etiquetadas con batch-normalization

2
¿Cómo y por qué Batch Normalization usa promedios móviles para rastrear la precisión del modelo mientras se entrena?
Estaba leyendo el documento de normalización de lotes (BN) (1) y no entendía la necesidad de usar promedios móviles para rastrear la precisión del modelo e incluso si aceptaba que era lo correcto, no entiendo qué están haciendo exactamente. Según tengo entendido (que puede estar equivocado), el documento menciona que …

1
Forma matricial de retropropagación con normalización de lotes
La normalización por lotes se ha acreditado con mejoras sustanciales de rendimiento en redes neuronales profundas. Un montón de material en Internet muestra cómo implementarlo en una activación por activación. Ya implementé backprop usando álgebra matricial, y dado que estoy trabajando en lenguajes de alto nivel (mientras confío en Rcpp(y …

1
¿Por qué la norma de lote tiene escala y cambio aprendibles?
Según tengo entendido, la norma de lote normaliza todas las características de entrada a una capa a una unidad de distribución normal, . La media y la varianza se estiman midiendo sus valores para el mini lote actual.norte( μ = 0 , σ= 1 )norte(μ=0 0,σ=1)\mathcal{N}(\mu=0,\sigma=1)μ , σ2μ,σ2\mu, \sigma^2 Después …

2
¿Hay alguna forma de lidiar con el gradiente de desaparición para saturar las no linealidades que no involucran unidades de Normalización por lotes o ReLu?
Quería entrenar una red con no linealidades que sufren el desvanecimiento (o el problema de gradiente explosivo, aunque principalmente se desvanecen). Sé que la forma estándar (actual) es usar la normalización por lotes 1 [BN] 1 o simplemente abandonar la no linealidad y usar las unidades ReLu Rectifier / ReLu …
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.