Acabo de completar el aprendizaje automático para el curso R en cognitivoclass.ai y he comenzado a experimentar con bosques aleatorios.
He hecho un modelo usando la biblioteca "randomForest" en R. El modelo se clasifica por dos clases, bueno y malo.
Sé que cuando un modelo está sobreajustado, funciona bien en los datos de su propio conjunto de entrenamiento pero mal en los datos fuera de la muestra.
Para entrenar y probar mi modelo, barajé y dividí el conjunto de datos completo en 70% para entrenamiento y 30% para pruebas.
Mi pregunta: estoy obteniendo una precisión del 100% de la predicción realizada en el conjunto de pruebas. ¿Es esto malo? Parece demasiado bueno para ser verdad.
El objetivo es el reconocimiento de formas de onda en cuatro, dependiendo de las formas de onda. Las características del conjunto de datos son los resultados de costos del análisis Dynamic Time Warping de formas de onda con su forma de onda objetivo.