Según tengo entendido, la norma de lote normaliza todas las características de entrada a una capa a una unidad de distribución normal, . La media y la varianza se estiman midiendo sus valores para el mini lote actual.
Después de la normalización, las entradas se escalan y cambian por valores escalares:
(Corrígeme si me equivoco aquí, aquí es donde empiezo a estar un poco inseguro).
y son valores escalares y hay un par de cada uno para cada capa normalizada por lotes. Se aprenden junto con los pesos utilizando backprop y SGD.
Mi pregunta es, ¿no son redundantes estos parámetros porque las entradas pueden ser escaladas y desplazadas de cualquier manera por los pesos en la capa misma? En otras palabras, si
y
entonces
donde y .
Entonces, ¿cuál es el punto de agregarlos de la red que ya es capaz de aprender la escala y el cambio? ¿O estoy entendiendo totalmente mal las cosas?