El bosque aleatorio es básicamente árboles de decisión de muestreo y entrenamiento de arranque en las muestras, por lo que la respuesta a su pregunta debe abordar esos dos.
El muestreo de Bootstrap no es una cura para muestras pequeñas . Si tiene solo veinticuatro observaciones en su conjunto de datos, entonces cada una de las muestras tomadas con reemplazo de estos datos consistirá en no más de los veinticuatro valores distintos. Mezclar los casos y no dibujar algunos de ellos no cambiaría mucho su capacidad de aprender algo nuevo sobre la distribución subyacente. Por lo tanto, una pequeña muestra es un problema para bootstrap.
Los árboles de decisión se entrenan dividiendo los datos condicionalmente en las variables predictoras, una variable a la vez, para encontrar submuestras que tengan el mayor poder discriminatorio. Si solo tiene veinticuatro casos, entonces diga que si tuvo suerte y todas las divisiones eran de tamaño uniforme, entonces con dos divisiones terminaría con cuatro grupos de seis casos, con divisiones de árboles, con ocho grupos de tres. Si calculó medias condicionales en las muestras (para predecir valores continuos en árboles de regresión o probabilidades condicionales en árboles de decisión), ¡basaría su conclusión solo en esos pocos casos! Por lo tanto, las submuestras que usaría para tomar las decisiones serían incluso más pequeñas que sus datos originales.
Con muestras pequeñas, generalmente es aconsejable utilizar métodos simples . Además, puede ponerse al día con la pequeña muestra utilizando antecedentes informativos en el entorno bayesiano (si tiene algún conocimiento razonable sobre el problema), por lo que podría considerar utilizar un modelo bayesiano a medida.