Creo que al preguntar sobre el ajuste adecuado, el entrevistador estaba buscando la "respuesta del libro de texto" mientras seguías algunos pasos después de eso.
Un síntoma de sobreajuste es que el rendimiento del clasificador en el conjunto de trenes es mejor que el del conjunto de prueba. Me refiero a esta respuesta como la "respuesta del libro de texto", ya que es la respuesta común y una aproximación razonable.
Tenga en cuenta que esta respuesta tiene muchos extremos abiertos. Por ejemplo, ¿cuánta diferencia es el sobreajuste? . Además, una diferencia en el rendimiento entre los conjuntos de datos no se debe necesariamente al sobreajuste. Por otro lado, el sobreajuste no necesariamente resultará en una diferencia significativa en el rendimiento de los dos conjuntos de datos.
La validación cruzada es una técnica para evaluar el rendimiento de un alumno (por ejemplo, un árbol de decisión) en datos que no vio antes. Sin embargo, el sobreajuste se refiere a un modelo específico (por ejemplo, si "f1" entonces y no "f2" predicen True). Le mostrará la tendencia del alumno a sobreajustar estos datos, pero no responderá si su modelo específico está sobreajustado.
Para sobreajustar el modelo necesitará complejidad y eso es lo que ayuda a la regularización. Limita (o intercambia) la complejidad del modelo. Tenga en cuenta que otra fuente de sobreajuste es el tamaño del conjunto de hipótesis (puede considerarse el número de modelos posibles). Decidir de antemano utilizar un conjunto de hipótesis restringido es otra forma de evitar el sobreajuste.