Estoy a punto de graduarme de mi Maestría y aprendí sobre el aprendizaje automático y también realicé proyectos de investigación con él. Me pregunto cuáles son las mejores prácticas de la industria cuando realizo tareas de aprendizaje automático con Big Datasets (como 100s GB o TB). Apreciar si otros científicos de datos pueden compartir su experiencia. Aquí están mis preguntas:
- Obviamente, los conjuntos de datos muy grandes tardan más tiempo en entrenarse (pueden ser días o semanas). Muchas veces necesitamos entrenar varios modelos (SVM, red neuronal, etc.) para comparar y encontrar un mejor modelo de rendimiento. Sospecho que, en proyectos de la industria, queremos que los resultados sean lo más rápidos posible pero que produzcamos el mejor rendimiento. ¿Hay algún consejo para reducir el tiempo de entrenamiento y evaluación? Si recomienda subconjugar el conjunto de datos, me interesará saber cuál es la mejor forma de subconjuntar el conjunto de datos para cubrir todos o la mayoría de los escenarios del conjunto de datos.
- Sabemos que realizar la validación cruzada es mejor ya que puede reducir el sobreajuste. Sin embargo, la validación cruzada también toma tiempo para entrenar y el modelo entrenado con validación cruzada puede no implementarse directamente (hablando de la experiencia de python sklearn: necesito entrenar el modelo con el conjunto de datos nuevamente después de las pruebas de validación cruzada para que se implemente). ¿Suele realizar una validación cruzada en sus proyectos de Big Data o salir adelante con la división de prueba de tren?
Agradezco los comentarios.