Siendo químico (analítico) , encuentro dos enfoques: el cálculo analítico de las cifras de mérito [principalmente para la regresión univariada], así como la medición directa de las cifras predictivas de mérito.
La división del tren / prueba para mí es el "hermano pequeño" de un experimento de validación para medir la calidad de la predicción.
Respuesta larga:
Los experimentos típicos que hacemos, por ejemplo, en química física de pregrado, utilizan regresión univariada. La propiedad de interés son a menudo los parámetros del modelo, por ejemplo, la constante de tiempo al medir la cinética de reacción, pero a veces también las predicciones (por ejemplo, calibración lineal univariada para predecir / medir algún valor de interés).
Estas situaciones son muy benignas en términos de no sobreajustar: generalmente queda un número cómodo de grados de libertad después de que se estiman todos los parámetros, y se usan para entrenar (como en educación) a estudiantes con confianza clásica o cálculo de intervalo de predicción, y error clásico propagación: se desarrollaron para estas situaciones. E incluso si la situación no es del todo como un libro de texto (por ejemplo, tengo estructura en mis datos, por ejemplo, en la cinética, esperaría que los datos se describan mejor por la varianza entre las corridas de la reacción + la varianza entre las mediciones en una corrida que por un enfoque simple de una sola variación), normalmente puedo tener suficientes ejecuciones del experimento para obtener resultados útiles.
Sin embargo, en mi vida profesional, trato con conjuntos de datos espectroscópicos (típicamente de 100 a 1000 de variantes ) y, además, con conjuntos bastante limitados de casos independientes (muestras) . A menudo , por lo que usamos la regularización de la cual no siempre es fácil decir cuántos grados de libertad usamos, y además tratamos de compensar al menos un poco la pequeña usando números (grandes) de mediciones casi repetidas - lo que nos deja con un desconocido efectivo . Sin saber on n < p n n n d fpnn<pnnndf, los enfoques clásicos no funcionan. Pero como estoy haciendo predicciones, siempre tengo una posibilidad muy directa de medir la capacidad predictiva de mi modelo: hago predicciones y las comparo con los valores de referencia.
Este enfoque es realmente muy poderoso (aunque costoso debido a un mayor esfuerzo experimental), ya que me permite probar la calidad predictiva también para condiciones que no estaban cubiertas en los datos de entrenamiento / calibración. Por ejemplo, puedo medir cómo se deteriora la calidad predictiva con la extrapolación (la extrapolación también incluye, por ejemplo, mediciones realizadas, por ejemplo, un mes después de que se obtuvieron los datos del entrenamiento), puedo probar la robustez contra factores de confusión que espero sean importantes, etc. En otras palabras , podemos estudiar el comportamiento de nuestro modelo del mismo modo que estudiamos el comportamiento de cualquier otro sistema: investigamos ciertos puntos, lo perturbamos y observamos el cambio en la respuesta del sistema, etc.
Diría que cuanto más importante es la calidad predictiva (y mayor es el riesgo de sobreajuste), más tendemos a preferir las mediciones directas de la calidad predictiva en lugar de los números derivados analíticamente. (Por supuesto, podríamos haber incluido todos esos factores de confusión también en el diseño del experimento de capacitación). Algunas áreas, como el diagnóstico médico, exigen que se realicen estudios de validación adecuados antes de que el modelo se "suelte" en pacientes reales.
La división de tren / prueba (ya sea esperar * o validación cruzada o fuera de lugar o ...) toma este paso más fácil. Guardamos el experimento adicional y no extrapolamos (solo generalizamos para predecir casos independientes desconocidos de la misma distribución de los datos de entrenamiento). Describiría esto como una verificación en lugar de una validación (aunque la validación está profundamente en la terminología aquí). Este es a menudo el camino pragmático a seguir si no hay demandas demasiado altas sobre la precisión de las cifras de mérito (puede que no sea necesario conocerlas con mucha precisión en un escenario de prueba de concepto).
* no confunda una sola división aleatoria en tren y prueba con un estudio diseñado adecuadamente para medir la calidad de la predicción.