¿Es una precisión del modelo del 100% en el sobreajuste de datos fuera de la muestra?

Acabo de completar el aprendizaje automático para el curso R en cognitivoclass.ai y he comenzado a experimentar con bosques aleatorios.

He hecho un modelo usando la biblioteca "randomForest" en R. El modelo se clasifica por dos clases, bueno y malo.

Sé que cuando un modelo está sobreajustado, funciona bien en los datos de su propio conjunto de entrenamiento pero mal en los datos fuera de la muestra.

Para entrenar y probar mi modelo, barajé y dividí el conjunto de datos completo en 70% para entrenamiento y 30% para pruebas.

Mi pregunta: estoy obteniendo una precisión del 100% de la predicción realizada en el conjunto de pruebas. ¿Es esto malo? Parece demasiado bueno para ser verdad.

El objetivo es el reconocimiento de formas de onda en cuatro, dependiendo de las formas de onda. Las características del conjunto de datos son los resultados de costos del análisis Dynamic Time Warping de formas de onda con su forma de onda objetivo.

r random-forest prediction overfitting

— Milan van Dijck
fuente

¡Bienvenido al sitio! ¿Intentaste predecir algunos datos de ruido?

— Toros91

Cada vez que reorganizas, entrenas y pruebas, ¿la precisión es del 100%?

— Alex

@Alex No exactamente pero se mantiene muy alto como 98,55%

— Milan van Dijck

@Alex 11.35% "ok" y 88.65% "malo"

— Milan van Dijck

Eso es bastante desequilibrado. Intente usar remuestreo (muestreo repetido) para inclinar el equilibrio en el conjunto de entrenamiento hacia la clase OK (por ejemplo, 30%) y mantenga la relación 11/89 en los conjuntos de prueba / validación. ¿Qué obtienes?

— Alex

Respuestas:

Los puntajes altos de validación, como la precisión, generalmente significan que no está sobreajustando, sin embargo, esto debe ser cauteloso y puede indicar que algo salió mal. También podría significar que el problema no es demasiado difícil y que su modelo realmente funciona bien. Dos cosas que podrían salir mal:

No dividió los datos correctamente y los datos de validación también aparecieron en sus datos de entrenamiento, lo que significa que indica un sobreajuste porque ya no está midiendo la generalización
Utiliza alguna ingeniería de características para crear características adicionales y es posible que haya introducido alguna fuga objetivo, donde sus filas están utilizando información de su objetivo actual, no solo de otros en su conjunto de entrenamiento

— Jan van der Vegt
fuente

La precisión del 100% siempre grita "fuga objetivo".

— Paul

Investigue para ver cuáles son sus características más predictivas. A veces incluiste accidentalmente tu objetivo (o algo equivalente a tu objetivo) entre tus características.

— tom
fuente