He escuchado la siguiente expresión antes:
"La optimización es la raíz de todo mal en las estadísticas".
Por ejemplo, la respuesta principal en este hilo hace esa declaración en referencia al peligro de optimizar demasiado agresivamente durante la selección del modelo.
Mi primera pregunta es la siguiente: ¿Es esta cita atribuible a alguien en particular? (por ejemplo, en la literatura estadística)
Por lo que entiendo, la declaración se refiere a los riesgos de sobreajuste. La sabiduría tradicional diría que la validación cruzada adecuada ya lucha contra este problema, pero parece que hay más en este problema que eso.
¿Deben los estadísticos y los profesionales de ML tener cuidado de no optimizar demasiado sus modelos incluso cuando se adhieren a estrictos protocolos de validación cruzada (por ejemplo, 100 CV anidados 10 veces)? Si es así, ¿cómo sabemos cuándo dejar de buscar el "mejor" modelo?