Por supuesto, también debe decidir sobre las proporciones de división para el remuestreo (doble) ...
Sin embargo, el remuestreo generalmente funciona para una amplia gama de relaciones de división, si tiene en cuenta
- no hacer una omisión si eso reduciría el número de posibles ejecuciones distintas
- deje suficientes casos de entrenamiento en el conjunto de entrenamiento más interno para que el algoritmo de entrenamiento tenga una oportunidad decente de producir un modelo útil.
- Cuantos más casos independientes tenga, menos importantes serán estas consideraciones.
¿Y qué pasa si está trabajando a datos de mayor escala (pero no a gran escala) de 10000 <N <1000000?
Lo que puede hacer si no está seguro de si es necesario volver a muestrear es: volver a muestrear algunas veces. Suficiente para que pueda medir si el muestreo fue necesario.
- verifica la estabilidad de tus predicciones
- verifique la estabilidad de los parámetros de su modelo
Con estos resultados, puede decidir si debe agregar más iteraciones de remuestreo o si las cosas están bien como están.