Tengo experiencia en informática pero estoy tratando de enseñarme ciencia de datos resolviendo problemas en Internet.
He estado trabajando en este problema durante las últimas semanas (aproximadamente 900 filas y 10 funciones). Inicialmente estaba usando regresión logística pero ahora me he cambiado a bosques aleatorios. Cuando ejecuto mi modelo de bosque aleatorio en mis datos de entrenamiento obtengo valores realmente altos para auc (> 99%). Sin embargo, cuando ejecuto el mismo modelo en los datos de la prueba, los resultados no son tan buenos (precisión de aproximadamente el 77%). Esto me lleva a creer que estoy sobre ajustando los datos de entrenamiento.
¿Cuáles son las mejores prácticas para prevenir la sobreadaptación en bosques aleatorios?
Estoy usando r y rstudio como mi entorno de desarrollo. Estoy usando el randomForest
paquete y he aceptado los valores predeterminados para todos los parámetros.