Creo que la respuesta depende del escenario.
Considere NN (red neuronal) como operador F, de modo que F (entrada) = salida . En el caso de que esta relación sea lineal, de modo que F (A * input) = A * output , puede optar por dejar la entrada / salida sin clasificar en sus formas sin formato, o normalizar ambas para eliminar A. Obviamente, esta suposición de linealidad es violado en tareas de clasificación, o casi cualquier tarea que genera una probabilidad, donde F (A * input) = 1 * output
En la práctica, la normalización permite que las redes no aptas sean aptas, lo cual es crucial para los experimentadores / programadores. Sin embargo, el impacto preciso de la normalización dependerá no solo de la arquitectura / algoritmo de la red, sino también de las estadísticas previas para la entrada y la salida.
Además, NN a menudo se implementa para resolver problemas muy difíciles de forma negra, lo que significa que el problema subyacente puede tener una formulación estadística muy pobre, lo que dificulta la evaluación del impacto de la normalización, lo que causa la ventaja técnica (que se vuelve adaptable) dominar su impacto en las estadísticas.
En sentido estadístico, la normalización elimina la variación que se cree que no es causal en la predicción de la salida, para evitar que NN aprenda esta variación como un predictor ( NN no ve esta variación, por lo tanto, no puede usarla ).