Hasta donde he visto, las opiniones tienden a diferir sobre esto. Las mejores prácticas ciertamente dictarían el uso de validación cruzada (especialmente si se comparan RF con otros algoritmos en el mismo conjunto de datos). Por otro lado, la fuente original afirma que el hecho de que el error OOB se calcule durante el entrenamiento del modelo es suficiente como un indicador del rendimiento del conjunto de pruebas. Incluso Trevor Hastie, en unas conversaciones relativamente recientes, dice que "Los bosques aleatorios proporcionan validación cruzada gratuita". Intuitivamente, esto tiene sentido para mí, si estoy entrenando y tratando de mejorar un modelo basado en RF en un conjunto de datos.
¿Puede alguien presentar los argumentos a favor y en contra de la necesidad de validación cruzada con bosques aleatorios?