He estado trabajando en aprendizaje automático y bioinformática durante un tiempo, y hoy tuve una conversación con un colega sobre los principales problemas generales de la minería de datos.
Mi colega (que es un experto en aprendizaje automático) dijo que, en su opinión, el aspecto práctico más importante del aprendizaje automático es cómo comprender si ha recopilado suficientes datos para entrenar su modelo de aprendizaje automático .
Esta declaración me sorprendió, porque nunca le había dado tanta importancia a este aspecto ...
Luego busqué más información en Internet, y encontré esta publicación en informes de FastML.com como regla general de que necesita aproximadamente 10 veces más instancias de datos que características .
Dos preguntas:
1 - ¿Es este problema realmente particularmente relevante en el aprendizaje automático?
2 - ¿Funciona la regla de 10 veces? ¿Hay otras fuentes relevantes para este tema?