Parece que hay consejos contradictorios sobre cómo manejar la comparación entre el error del tren y la prueba, particularmente cuando hay una brecha entre los dos. Parece que hay dos escuelas de pensamiento que para mí parecen estar en conflicto. Estoy buscando entender cómo conciliar los dos (o entender lo que me falta aquí).
Pensamiento n. ° 1: Una brecha entre el rendimiento del tren y el set de prueba por sí solo no indica un sobreajuste
Primero, (también discutido aquí: ¿cómo pueden las comparaciones de errores de entrenamiento y prueba ser indicativas de sobreajuste? ), La idea de que una diferencia entre el entrenamiento y el conjunto de prueba solo no puede indicar un sobreajuste. Esto concuerda con mi experiencia práctica con, por ejemplo, métodos de árbol de conjunto, donde incluso después de la sintonización de hiperparámetros basada en la validación cruzada, la brecha entre el tren y el error de prueba puede seguir siendo algo grande. Pero (independientemente del tipo de modelo) siempre que su error de validación no vuelva a funcionar, está bien. Al menos, ese es el pensamiento.
Pensamiento n. ° 2: cuando vea una brecha entre el rendimiento del tren y el de la prueba: haga cosas que combatan el sobreajuste
Sin embargo, hay consejos que puede ver, de fuentes muy buenas que sugieren que una brecha entre el tren y el error de prueba es indicativo de sobreajuste. Aquí hay un ejemplo: la charla "Nuts and Bolts of Deep Learning" de Andrew Ng (una charla fantástica) https://www.youtube.com/watch?v=F1ka6a13S9I donde alrededor de la hora 48:00 dibuja un diagrama de flujo que dice "si el error de conjunto de trenes es bajo y el error de conjunto de tren-desarrollador es alto, debe agregar regularización, obtener más datos o cambiar la arquitectura del modelo" ... que son todas las acciones que podría tomar para combatir el sobreajuste.
Lo que me lleva a ... : ¿Me estoy perdiendo algo aquí? ¿Es esta una regla general específica del modelo (en general, los modelos más simples parecen tener menos espacio entre el tren y la prueba)? ¿O simplemente hay dos escuelas de pensamiento diferentes?