Estoy jugando con un bosque aleatorio y he descubierto que, en general, aumentar el tamaño de la muestra conduce a un mejor rendimiento. ¿Existe una regla / fórmula / etc. que sugiera cuál debería ser el sampSize óptimo o es una prueba y error? Supongo que otra forma de redactarlo; ¿Cuáles son mis riesgos de un tamaño de muestra demasiado pequeño o demasiado grande (sobreajuste)?
Esta pregunta se refiere a la implementación R del bosque aleatorio en el randomForest
paquete. La función randomForest
tiene un parámetro sampSize
que se describe en la documentación como
Tamaño (s) de muestra a dibujar. Para la clasificación, si sampsize es un vector de la longitud del número de estratos, entonces el muestreo se estratifica por estratos, y los elementos de sampsize indican los números que se extraerán de los estratos.