Digamos que tengo dos métodos de aprendizaje para un problema de clasificación , y , y que calculo su rendimiento de generalización con algo como validación cruzada repetida o bootstrapping. De este proceso obtengo una distribución de puntajes y para cada método a través de estas repeticiones (por ejemplo, la distribución de valores ROC AUC para cada modelo).B P B
Mirando estas distribuciones, podría ser que pero que (es decir, el rendimiento de generalización esperado de es mayor que , pero que hay más incertidumbre sobre esta estimación).σ A ≥ σ B A B
Creo que esto se llama el dilema sesgo-varianza en la regresión.
¿Qué métodos matemáticos puedo usar para comparar y y eventualmente tomar una decisión informada sobre qué modelo usar?P B
Nota: En aras de la simplicidad, me refiero a dos métodos y aquí, pero estoy interesado en los métodos que se pueden utilizar para comparar la distribución de puntajes de ~ 1000 métodos de aprendizaje (por ejemplo, de una búsqueda de cuadrícula) y eventualmente hacer una decisión final sobre qué modelo usar.B