Soy bastante nuevo en los bosques al azar. En el pasado, siempre he comparado la precisión del ajuste contra la prueba contra el ajuste contra el tren para detectar cualquier sobreajuste. Pero acabo de leer aquí que:
"En bosques aleatorios, no hay necesidad de validación cruzada o un conjunto de pruebas separado para obtener una estimación imparcial del error del conjunto de pruebas. Se estima internamente, durante la ejecución ..."
El pequeño párrafo anterior se puede encontrar en la sección La estimación del error de fuera de bolsa (oob) . Este concepto de error fuera de bolsa es completamente nuevo para mí y lo que es un poco confuso es cómo el error OOB en mi modelo es del 35% (o del 65% de precisión), pero aún así, si aplico la validación cruzada a mis datos (solo una simple retención método) y compare tanto el ajuste contra la prueba contra el ajuste contra el tren obtengo una precisión del 65% y una precisión del 96% respectivamente. En mi experiencia, esto se considera sobreajuste, pero el OOB tiene un error del 35% al igual que mi error de ajuste vs prueba . ¿Estoy sobreajustando? ¿Debería incluso usar la validación cruzada para verificar el sobreajuste en bosques aleatorios?
En resumen, no estoy seguro de si debo confiar en el OOB para obtener un error imparcial del error del conjunto de prueba cuando mi ajuste vs tren indica que estoy sobreajustando.