Me asignaron esta tarea para analizar los registros del servidor de nuestra aplicación que contiene registros de excepciones, registros de eventos, registros de base de datos, etc. Soy nuevo en el aprendizaje automático, utilizamos Spark con búsqueda elástica y Sparks MLlib (o PredictionIO) .Un ejemplo de lo deseado el resultado sería poder predecir en función de los registros de excepciones recopilados para poder predecir qué usuario es más probable que cause la próxima excepción y en qué función (y un montón de otras cosas para realizar un seguimiento y mejorar la optimización de la aplicación).
He podido ingresar con éxito datos de ElasticSearch en spark y crear marcos de datos y mapear los datos necesarios. Lo que me gustaría saber es cómo abordo el aspecto de Machine Learning de mi implementación. He revisado artículos y documentos que hablan sobre el preprocesamiento de datos, la capacitación de los modelos de datos y la creación de etiquetas y luego la generación de predicciones.
Las preguntas que tengo son
¿Cómo abordo la transformación de los datos de registro existentes en vectores numéricos que se pueden utilizar para formar conjuntos de datos a entrenar?
¿Qué algoritmos utilizo para entrenar mi conjunto de datos?
Solo estoy buscando sugerencias sobre cómo abordar este problema.
Gracias.