Ciertamente es posible ajustar buenos modelos cuando hay más variables que puntos de datos, pero esto debe hacerse con cuidado.
Cuando hay más variables que puntos de datos, el problema puede no tener una solución única a menos que esté más restringido. Es decir, puede haber múltiples (quizás infinitas) soluciones que se ajusten igualmente bien a los datos. Tal problema se llama 'mal planteado' o 'subdeterminado'. Por ejemplo, cuando hay más variables que puntos de datos, la regresión estándar de mínimos cuadrados tiene infinitas soluciones que logran un error cero en los datos de entrenamiento.
Tal modelo ciertamente se sobreajustará porque es 'demasiado flexible' para la cantidad de datos de entrenamiento. A medida que aumenta la flexibilidad del modelo (por ejemplo, más variables en un modelo de regresión) y la cantidad de datos de entrenamiento se reduce, es cada vez más probable que el modelo pueda lograr un error bajo ajustando fluctuaciones aleatorias en los datos de entrenamiento que no representan el verdadera, distribución subyacente. Por lo tanto, el rendimiento será pobre cuando el modelo se ejecute en datos futuros extraídos de la misma distribución.
Los problemas de mala postura y sobreajuste pueden abordarse imponiendo restricciones. Esto puede tomar la forma de restricciones explícitas sobre los parámetros, un término de penalización / regularización o un previo bayesiano. La capacitación se convierte en una compensación entre ajustar bien los datos y satisfacer las restricciones. Usted mencionó dos ejemplos de esta estrategia para problemas de regresión: 1) LASSO restringe o penaliza la norma de los pesos, lo que equivale a imponer un previo laplaciano. 2) La regresión de cresta restringe o penaliza la norma de los pesos, lo que equivale a imponer un previo gaussiano.ℓ1ℓ2
Las restricciones pueden proporcionar una solución única, lo cual es deseable cuando deseamos interpretar el modelo para aprender algo sobre el proceso que generó los datos. También pueden producir un mejor rendimiento predictivo al limitar la flexibilidad del modelo, reduciendo así la tendencia al sobreajuste.
Sin embargo, simplemente imponer restricciones o garantizar que exista una solución única no implica que la solución resultante sea buena. Las restricciones solo producirán buenas soluciones cuando en realidad sean adecuadas para el problema.
Un par de puntos varios:
- La existencia de múltiples soluciones no es necesariamente problemática. Por ejemplo, las redes neuronales pueden tener muchas soluciones posibles que son distintas entre sí pero casi igualmente buenas.
- La existencia de más variables que puntos de datos, la existencia de múltiples soluciones y el sobreajuste a menudo coinciden. Pero, estos son conceptos distintos; cada uno puede ocurrir sin los otros.