En las notas de la semana 3 de la clase Coursera Machine Learning de Andrew Ng , se agrega un término a la función de costos para implementar la regularización:
Las notas de la conferencia dicen:
También podríamos regularizar todos nuestros parámetros theta en una sola suma:
se aplica más tarde al término de regularización de las redes neuronales :
Recuerde que la función de costo para la regresión logística regularizada fue:
Para las redes neuronales, será un poco más complicado:
- ¿Por qué se usa la mitad constante aquí? ¿Para que se cancele en la derivada ?
- ¿Por qué la división por ejemplos de entrenamiento? ¿Cómo afecta la cantidad de ejemplos de entrenamiento a las cosas?