Tengo un curso de Machine Learning este semestre y el profesor nos pidió que encontremos un problema del mundo real y lo resolvamos con uno de los métodos de machine learning introducidos en la clase, como:
- Árboles de decisión
- Redes neuronales artificiales
- Máquinas de vectores de soporte
- Aprendizaje basado en instancias ( kNN , LWL )
- Redes Bayesianas
- Aprendizaje reforzado
Soy uno de los fanáticos de stackoverflow y stackexchange y sé que los volcados de la base de datos de estos sitios web se proporcionan al público porque son increíbles. Espero poder encontrar un buen desafío de aprendizaje automático sobre estas bases de datos y resolverlo.
Mi idea
Se me ocurrió una idea al predecir etiquetas para preguntas basadas en las palabras ingresadas en el cuerpo de la pregunta. Creo que la red bayesiana es la herramienta adecuada para aprender etiquetas para una pregunta, pero necesito más investigación. De todos modos, después de la fase de aprendizaje cuando el usuario termina de ingresar la pregunta, se le deben sugerir algunas etiquetas.
Por favor, dime :
Quiero preguntar a la comunidad de estadísticas como personas experimentadas acerca de dos preguntas sobre el aprendizaje automático:
¿Crees que la sugerencia de etiquetas es al menos un problema que tiene alguna posibilidad de resolver? ¿Tienes algún consejo al respecto? Estoy un poco preocupado porque stackexchange aún no implementa dicha característica.
¿Tiene alguna otra / mejor idea para el proyecto ML que se basa en la base de datos stackexchange? Me resulta muy difícil encontrar algo que aprender de las bases de datos de stackexchange.
Consideración acerca de los errores de la base de datos: me gustaría señalar que, aunque las bases de datos son enormes y tienen muchas instancias, no son perfectas y pueden eliminar errores. La obvia es la edad de los usuarios que no es confiable. Incluso las etiquetas seleccionadas para la pregunta no son 100% correctas. De todos modos, debemos considerar el porcentaje de exactitud de los datos al seleccionar un problema.
Consideración sobre el problema en sí: mi proyecto no debería ser sobre data-mining
algo como esto. Simplemente debería ser una aplicación de métodos de ML en el mundo real.