Hay tantas técnicas de regularización que no es práctico probar todas las combinaciones:
- l1 / l2
- norma máxima
- abandonar
- parada temprana
- ...
Parece que la mayoría de las personas están contentas con una combinación de abandono escolar y parada temprana: ¿hay casos en los que tenga sentido usar otras técnicas?
Por ejemplo, si desea un modelo disperso, puede agregar un poco de regularización l1. Aparte de eso, ¿hay argumentos sólidos a favor de rociar en otras técnicas de regularización?
Sé sobre el teorema de no almuerzo gratis, en teoría tendría que probar todas las combinaciones de técnicas de regularización, pero no vale la pena intentarlo si casi nunca produce un aumento significativo en el rendimiento.