Cuando intenta ajustar modelos a un gran conjunto de datos, el consejo común es dividir los datos en tres partes: el conjunto de datos de capacitación, validación y prueba.
Esto se debe a que los modelos generalmente tienen tres "niveles" de parámetros: el primer "parámetro" es la clase de modelo (por ejemplo, SVM, red neuronal, bosque aleatorio), el segundo conjunto de parámetros son los parámetros de "regularización" o "hiperparámetros" ( por ejemplo, coeficiente de penalización de lazo, elección del núcleo, estructura de la red neuronal) y el tercer conjunto son los que generalmente se consideran los "parámetros" (por ejemplo, coeficientes para las covariables).
Dada una clase de modelo y una selección de hiperparámetros, uno selecciona los parámetros eligiendo los parámetros que minimizan el error en el conjunto de entrenamiento. Dada una clase de modelo, uno ajusta los hiperparámetros al minimizar el error en el conjunto de validación. Uno selecciona la clase de modelo por rendimiento en el conjunto de prueba.
Pero, ¿por qué no más particiones? A menudo, uno puede dividir los hiperparámetros en dos grupos, y usar una "validación 1" para el primero y "validación 2" para el segundo. O incluso se podría tratar el tamaño de los datos de entrenamiento / datos de validación divididos como un hiperparámetro para ajustar.
¿Es esto ya una práctica común en algunas aplicaciones? ¿Existe algún trabajo teórico sobre la partición óptima de datos?