Estoy confundido acerca de cómo dividir los datos para la validación cruzada k-fold del aprendizaje en conjunto.
Suponiendo que tengo un marco de aprendizaje conjunto para la clasificación. Mi primera capa contiene los modelos de clasificación, por ejemplo, svm, árboles de decisión.
Mi segunda capa contiene un modelo de votación, que combina las predicciones de la primera capa y da la predicción final.
Si usamos la validación de 5 pliegues cruzados, estoy pensando en usar los 5 pliegues de la siguiente manera:
- 3 pliegues para entrenar la primera capa
- 1 pliegue para entrenar la segunda capa
- 1 pliegue para probar
¿Es esta la forma correcta? ¿Deberían ser independientes los datos de entrenamiento para la primera y segunda capa? Estoy pensando que deberían ser independientes para que el marco de aprendizaje conjunto sea robusto.
Mi amigo sugiere que los datos de entrenamiento para la primera y segunda capa deben ser los mismos, es decir
- 4 pliegues para entrenar la primera y segunda capa
- 1 pliegue para probar
De esta manera, tendremos un error más preciso del marco de aprendizaje conjunto, y el ajuste iterativo del marco será más preciso, ya que se basa en un solo dato de entrenamiento. Además, la segunda capa puede estar sesgada hacia los datos de entrenamiento independientes.
Cualquier consejo es muy apreciado