Suponga que tengo un tamaño de muestra pequeño, por ejemplo, N = 100 y dos clases. ¿Cómo debo elegir la capacitación, la validación cruzada y los tamaños de los conjuntos de prueba para el aprendizaje automático?
Yo elegiría intuitivamente
- Tamaño del set de entrenamiento como 50
- Conjunto de validación cruzada tamaño 25, y
- Tamaño de prueba como 25.
Pero probablemente esto tiene más o menos sentido. ¿Cómo debería realmente decidir estos valores? ¿Puedo probar diferentes opciones (aunque supongo que no es tan preferible ... una mayor posibilidad de sobreaprendizaje)?
¿Qué pasa si tuviera más de dos clases?