Estoy tratando de configurar una infraestructura de big data usando Hadoop, Hive, Elastic Search (entre otros), y me gustaría ejecutar algunos algoritmos en ciertos conjuntos de datos. Me gustaría que los algoritmos en sí sean escalables, por lo que esto excluye el uso de herramientas como Weka, R o incluso RHadoop. La Biblioteca Apache Mahout parece ser una buena opción, y presenta algoritmos para tareas de regresión y agrupamiento .
Lo que estoy luchando por encontrar es una solución para anomalías o detección de valores atípicos.
Dado que Mahout presenta modelos de Markov ocultos y una variedad de técnicas de agrupamiento (incluyendo K-Means), me preguntaba si sería posible construir un modelo para detectar valores atípicos en series de tiempo, usando cualquiera de estos. Estaría agradecido si alguien con experiencia en esto pudiera aconsejarme
- si es posible, y en caso de que sea
- cómo hacerlo, además
- una estimación del esfuerzo involucrado y
- precisión / problemas de este enfoque.