La manera simple de explicarlo es que la regularización ayuda a no ajustarse al ruido, no hace mucho en términos de determinar la forma de la señal. Si piensa en el aprendizaje profundo como un aproximador de funciones glorioso gigante, entonces se da cuenta de que necesita muchos datos para definir la forma de la señal compleja.
Si no hubiera ruido, la creciente complejidad de NN produciría una mejor aproximación. No habría ninguna penalización en el tamaño del NN, más grande hubiera sido mejor en todos los casos. Considere una aproximación de Taylor, más términos siempre son mejores para la función no polinómica (ignorando los problemas de precisión numérica).
Esto se rompe en presencia de un ruido, porque comienza a adaptarse al ruido. Entonces, aquí viene la regularización para ayudar: puede reducir la adaptación al ruido, lo que nos permite construir NN más grandes para adaptarse a problemas no lineales.
La siguiente discusión no es esencial para mi respuesta, pero agregué en parte para responder algunos comentarios y motivar el cuerpo principal de la respuesta anterior. Básicamente, el resto de mi respuesta es como fuegos franceses que vienen con una comida de hamburguesa, puedes saltartela.
(Ir) Caso relevante: regresión polinómica
Veamos un ejemplo de juguete de una regresión polinómica. También es un buen aproximador para muchas funciones. Veremos la función en la región x ∈ ( - 3 , 3 ) . Como puede ver en su serie Taylor a continuación, la expansión de séptimo orden ya es bastante buena, por lo que podemos esperar que un polinomio de orden 7+ también sea muy bueno:pecado( x )x ∈ ( - 3 , 3 )
A continuación, vamos a ajustar los polinomios con un orden progresivamente más alto a un pequeño conjunto de datos muy ruidoso con 7 observaciones:
Podemos observar lo que nos han dicho sobre polinomios muchas personas que lo saben: son inestables y comienzan a oscilar salvajemente con el aumento del orden de los polinomios.
Sin embargo, el problema no son los polinomios en sí. El problema es el ruido. Cuando ajustamos polinomios a datos ruidosos, parte del ajuste es al ruido, no a la señal. Aquí están los mismos polinomios exactos que se ajustan al mismo conjunto de datos pero con el ruido eliminado por completo. ¡Los ajustes son geniales!
pecado( x )
Observe también que los polinomios de orden superior no se ajustan tan bien como el orden 6, porque no hay suficientes observaciones para definirlos. Entonces, veamos qué sucede con 100 observaciones. En el cuadro a continuación, verá cómo un conjunto de datos más grande nos permitió ajustar polinomios de orden superior, logrando así un mejor ajuste.
Genial, pero el problema es que generalmente tratamos con datos ruidosos. Mire lo que sucede si ajusta lo mismo a 100 observaciones de datos muy ruidosos, vea la tabla a continuación. Volvemos al punto de partida: los polinomios de orden superior producen horribles ajustes oscilantes. Por lo tanto, aumentar el conjunto de datos no ayudó mucho a aumentar la complejidad del modelo para explicar mejor los datos. Esto es, nuevamente, porque el modelo complejo se adapta mejor no solo a la forma de la señal, sino también a la forma del ruido.
Finalmente, intentemos una regularización poco convincente sobre este problema. La tabla a continuación muestra la regularización (con diferentes penalizaciones) aplicada a la regresión polinómica de orden 9. Compare esto con el ajuste de polinomio de orden (potencia) 9 anterior: a un nivel apropiado de regularización es posible ajustar polinomios de orden superior a datos ruidosos.
Por si acaso no estaba claro: no estoy sugiriendo utilizar la regresión polinómica de esta manera. Los polinomios son buenos para los ajustes locales, por lo que un polinomio por partes puede ser una buena opción. Encajar todo el dominio con ellos es a menudo una mala idea, ya que son sensibles al ruido, como debería ser evidente en las parcelas anteriores. Si el ruido es numérico o de alguna otra fuente no es tan importante en este contexto. el ruido es ruido, y los polinomios reaccionarán apasionadamente.