Mensajes para llevar a casa:
Desafortunadamente, el texto que cita cambia dos cosas entre el enfoque 1 y 2:
- Enfoque 2 realiza validación cruzada y selección / ajuste / optimización de modelos basados en datos
- El Enfoque 1 no utiliza validación cruzada ni selección / ajuste / optimización de modelos basados en datos.
- El enfoque 3 de validación cruzada sin selección / ajuste / optimización del modelo basado en datos es perfectamente factible (en mi humilde opinión, en mi humilde opinión conduciría a una mayor comprensión) en el contexto discutido aquí
- Enfoque 4, sin validación cruzada, pero también es posible la selección / ajuste / optimización del modelo basado en datos, pero es más complejo de construir.
En mi humilde opinión, la validación cruzada y la optimización basada en datos son dos decisiones totalmente diferentes (y en gran medida independientes) al configurar su estrategia de modelado. La única conexión es que puede usar estimaciones de validación cruzada como objetivo funcional para su optimización. Pero existen otros objetivos funcionales listos para ser utilizados, y hay otros usos de las estimaciones de validación cruzada (lo más importante, puede usarlos para la verificación de su modelo, también conocido como validación o prueba)
Desafortunadamente, la terminología de aprendizaje automático es, en mi humilde opinión, un desastre que sugiere conexiones / causas / dependencias falsas aquí.
Cuando busca el enfoque 3 (validación cruzada no para la optimización sino para medir el rendimiento del modelo), encontrará que la validación cruzada de "decisión" frente al entrenamiento en todo el conjunto de datos es una falsa dicotomía en este contexto: cuando se usa la validación cruzada Para medir el rendimiento del clasificador, la figura de mérito de validación cruzada se utiliza como estimación para un modelo entrenado en todo el conjunto de datos. Es decir, el enfoque 3 incluye el enfoque 1.
Ahora, veamos la segunda decisión: la optimización del modelo basado en datos o no. Este es, en mi humilde opinión, el punto crucial aquí. Y sí, hay situaciones del mundo real en las que no es mejor optimizar el modelo basado en datos. La optimización del modelo basada en datos tiene un costo. Puede pensarlo de esta manera: la información en su conjunto de datos se usa para estimar no solo lapparámetros / coeficientes del modelo, pero lo que hace la optimización es estimar parámetros adicionales, los llamados hiperparámetros. Si describe el proceso de ajuste y optimización / ajuste del modelo como una búsqueda de los parámetros del modelo, entonces esta optimización de hiperparámetro significa que se considera un espacio de búsqueda mucho mayor. En otras palabras, en el enfoque 1 (y 3) restringe el espacio de búsqueda especificando esos hiperparámetros. Su conjunto de datos del mundo real puede ser lo suficientemente grande (contener suficiente información) para permitir el ajuste dentro de ese espacio de búsqueda restringido, pero no lo suficientemente grande como para fijar todos los parámetros suficientemente bien en el espacio de búsqueda más amplio de los enfoques 2 (y 4).
De hecho, en mi campo a menudo tengo que lidiar con conjuntos de datos demasiado pequeños para permitirme pensar en la optimización basada en datos. Entonces, ¿qué debo hacer? Utilizo mi conocimiento de dominio sobre los datos y los procesos de generación de datos para decidir qué modelo coincide bien con la naturaleza física de los datos y la aplicación. Y dentro de estos, todavía tengo que restringir la complejidad de mi modelo.