¿El modelado con bosques aleatorios requiere validación cruzada?

Hasta donde he visto, las opiniones tienden a diferir sobre esto. La mejor práctica ciertamente dictaría el uso de validación cruzada (especialmente si se comparan RF con otros algoritmos en el mismo conjunto de datos). Por otro lado, la fuente original afirma que el hecho de que el error OOB se calcule durante el entrenamiento del modelo es suficiente como un indicador del rendimiento del conjunto de pruebas. Incluso Trevor Hastie, en conversaciones relativamente recientes, dice que "Los bosques aleatorios proporcionan validación cruzada gratuita". Intuitivamente, esto tiene sentido para mí, si estoy entrenando y tratando de mejorar un modelo basado en RF en un conjunto de datos.

¿Cuál es tu opinión sobre esto?

— neurona
fuente

esto no está abordando el punto principal de la pregunta, pero aún así es posible que desee validar cruzada los parámetros secundarios (como la profundidad de los árboles, etc.)

— Wouter

Puede usar RF o compararlo con otros enfoques en términos de rendimiento en el conjunto de entrenamiento, o usar un subconjunto de datos independiente para probar el rendimiento. Es una cuestión de su hipótesis: ¿está tratando de generalizar los resultados a una población más grande o simplemente para clasificar los datos disponibles, en lugar de una propiedad de RF?

— katya

$1-(1-\frac{1}{N})^N \approx 1-e^{-1} \approx 0.6$

Como señala @Wouter, es probable que desee realizar una validación cruzada para el ajuste de parámetros, pero como una estimación del error del conjunto de prueba, el error OOB debería estar bien.

— einar
fuente