Completé el curso de Aprendizaje automático de Andrew Ng hace aproximadamente un año, y ahora estoy escribiendo mi exploración de matemáticas en la escuela secundaria sobre el funcionamiento de la regresión logística y las técnicas para optimizar el rendimiento. Una de estas técnicas es, por supuesto, la regularización.
El objetivo de la regularización es evitar el sobreajuste al extender la función de costos para incluir el objetivo de la simplicidad del modelo. Podemos lograr esto penalizando el tamaño de los pesos agregando a la función de costo cada uno de los pesos al cuadrado, multiplicado por algún parámetro de regularización.
Ahora, el algoritmo de Machine Learning tendrá como objetivo reducir el tamaño de los pesos mientras se mantiene la precisión en el conjunto de entrenamiento. La idea es que llegaremos a algún punto en el medio donde podamos producir un modelo que generalice los datos y no intente incluir todo el ruido estocástico al ser menos complejo.
Mi confusión es ¿por qué penalizamos el tamaño de las pesas? ¿Por qué los pesos más grandes crean modelos más complejos y los pesos más pequeños crean modelos más simples / más suaves? Andrew Ng afirma en su conferencia que la explicación es difícil de enseñar, pero supongo que estoy buscando esta explicación ahora.
De hecho, el profesor Ng dio un ejemplo de cómo la nueva función de costo puede causar que los pesos de las características (es decir, x ^ 3 y x ^ 4) tiendan hacia cero para que se reduzca el grado del modelo, pero esto no crea un completo explicación.
Mi intuición es que los pesos más pequeños tenderán a ser más "aceptables" en entidades con exponentes mayores que aquellas con exponentes más pequeños (porque las entidades con pesos pequeños son como la base de la función). Los pesos más pequeños implican "contribuciones" más pequeñas a las características de alto orden. Pero esta intuición no es muy concreta.