Realmente depende de la cantidad de datos que tenga, el costo específico de los métodos y cómo desea exactamente que sea su resultado.
Algunos ejemplos:
Si tiene pocos datos, probablemente quiera usar la validación cruzada (k-fold, leave-one-out, etc.) Su modelo probablemente no necesitará muchos recursos para entrenar y probar de todos modos. Son buenas maneras de aprovechar al máximo sus datos.
Tiene muchos datos: probablemente desee tomar un conjunto de pruebas razonablemente grande, asegurando que habrá pocas posibilidades de que algunas muestras extrañas den mucha variación a sus resultados. ¿Cuántos datos debes tomar? Depende completamente de sus datos y modelo. En el reconocimiento de voz, por ejemplo, si tomara demasiados datos (digamos 3000 oraciones), sus experimentos tomarían días, ya que un factor en tiempo real de 7-10 es común. Si toma muy poco, depende demasiado de los altavoces que elija (que no están permitidos en el conjunto de entrenamiento).
¡Recuerde también que en muchos casos es bueno tener también un conjunto de validación / desarrollo!