En el libro de Bishop "Clasificación de patrones y aprendizaje automático", describe una técnica para la regularización en el contexto de redes neuronales. Sin embargo, no entiendo un párrafo que describa que durante el proceso de capacitación, el número de grados de libertad aumenta junto con la complejidad del modelo. La cita relevante es la siguiente:
Una alternativa a la regularización como una forma de controlar la complejidad efectiva de una red es el procedimiento de parada temprana. El entrenamiento de modelos de red no lineales corresponde a una reducción iterativa de la función de error definida con respecto a un conjunto de datos de entrenamiento. Para muchos de los algoritmos de optimización utilizados para el entrenamiento de la red, como los gradientes conjugados, el error es una función no creciente del índice de iteración. Sin embargo, el error medido con respecto a los datos independientes, generalmente denominado conjunto de validación, a menudo muestra una disminución al principio, seguido de un aumento a medida que la red comienza a ajustarse demasiado. Por lo tanto, la capacitación se puede detener en el punto de error más pequeño con respecto al conjunto de datos de validación, como se indica en la Figura 5.12, para obtener una red que tenga un buen rendimiento de generalización.El comportamiento de la red en este caso a veces se explica cualitativamente en términos del número efectivo de grados de libertad en la red, en el que este número comienza siendo pequeño y luego crece durante el proceso de capacitación, lo que corresponde a un aumento constante en el efectivo complejidad del modelo.
También dice que el número de parámetros crece durante el curso de entrenamiento. Supuse que por "parámetros", se refiere al número de pesos controlados por las unidades ocultas de la red. Tal vez me equivoque porque el proceso de regularización impide que los pesos aumenten en magnitud, pero no cambian en número. ¿Podría referirse al proceso de encontrar un buen número de unidades ocultas?
¿Qué es un grado de libertad en una red neuronal? ¿Qué parámetros aumentan durante el entrenamiento?