Me preguntaba si el uso de la validación cruzada para encontrar los mejores parámetros de ajuste para diversas técnicas de aprendizaje automático es diferente de la indagación de datos.
Su preocupación es acertada, y hay mucha literatura sobre este tema, por ej.
- Cawley, GC & Talbot, NLC: sobre el ajuste excesivo en la selección del modelo y el sesgo de selección posterior en la evaluación del rendimiento, Journal of Machine Learning Research, 11, 2079-2107 (2010).
- Boulesteix, A.-L .: Sobre-optimismo en la investigación bioinformática., Bioinformática, 26, 437-439 (2010). DOI: 10.1093 / bioinformática / btp648
- Jelizarow, M .; Guillemot, V .; Tenenhaus, A .; Strimmer, K. y Boulesteix, A.-L .: Sobre-optimismo en bioinformática: una ilustración., Bioinformática, 26, 1990-1998 (2010). DOI: 10.1093 / bioinformática / btq323
El problema es que el ajuste de hiperparámetros con validación cruzada es un proceso de optimización basado en datos, y todavía tenderá a ajustarse demasiado a su conjunto de datos (menos que el ajuste por error de restitución, pero aún así). Intentar utilizar los resultados de validación cruzada de ajuste como medida de rendimiento "independiente" es como comerse el pastel (= ajuste) y conservarlo (= medir el rendimiento final del modelo).
Esto no significa que no deba usar la validación cruzada para el ajuste de hiperparámetros. Solo significa que puede usarlo solo para un propósito. Optimice o mida el rendimiento del modelo para fines de validación.
La solución es que necesita hacer una validación independiente para medir la calidad del modelo obtenido con los hiperparámetros sintonizados. Esto se llama validación anidada o doble. Aquí encontrará una serie de preguntas y respuestas sobre estos temas.
Conceptualmente, me gusta decir que la capacitación incluye todo tipo de pasos sofisticados para adaptarse no solo a los parámetros del modelo "habituales" sino también para ajustar (autoajustar) los hiperparámetros. Por lo tanto, la optimización basada en datos de λ es claramente parte de la capacitación del modelo.
Como regla general, también puede decir que el entrenamiento modelo es todo lo que debe hacerse antes de tener una función final de caja negra lista para usar que pueda generar predicciones para nuevos casos.
PD: Encuentro la terminología de prueba versus validación muy confusa porque en mi campo "validación" significa probar que el modelo final es adecuado para su propósito y, por lo tanto, es lo que otras personas llaman prueba en lugar de validación. Prefiero llamar al conjunto de prueba interno "conjunto de prueba de ajuste" y al "conjunto de prueba de validación final" externo o similar.
Actualizar:
Entonces, si mi modelo (es decir, mi parámetro de ajuste en este caso) falla la validación externa, ¿qué debo hacer entonces?
Por lo general, esto no es nada de lo que sucede: hay situaciones típicas que pueden causar tal falla. Y todas esas situaciones de las que estoy al tanto son situaciones de sobreajuste. Debe tener en cuenta que si bien la regularización ayuda a reducir la cantidad necesaria de casos de capacitación, la optimización basada en datos necesita grandes cantidades de datos.
Mis recomendaciones:
Por lo general, ya debería (debería) tener expectativas aproximadas, por ejemplo, qué rendimiento debería alcanzarse, qué rendimiento consideraría sospechosamente atractivo. O tenga especificaciones sobre el rendimiento que necesita lograr y un rendimiento de referencia. A partir de eso y el número de casos de capacitación disponibles (para el esquema de división que decidió), calcule la incertidumbre esperada para las pruebas internas (ajuste). Si esa incertidumbre indica que no podría obtener comparaciones significativas, no haga una optimización basada en datos.
Debe verificar cuán estables son las predicciones obtenidas con el λ elegido y el λ óptimo encontrado por el procedimiento de autoajuste. Si λ no es razonablemente estable con respecto a las diferentes divisiones de sus datos, la optimización no funcionó.
Si descubre que no podrá realizar la optimización basada en datos o que no funcionó después de todo, puede elegir el λ según su conocimiento experto, por ejemplo, por experiencia con datos similares. O sabiendo que si descubre que la optimización falló, necesitará una regularización más fuerte: el sobreajuste que conduce al fracaso funciona hacia modelos demasiado complejos.