Detección de anomalías / valores atípicos escalables

10

Estoy tratando de configurar una infraestructura de big data usando Hadoop, Hive, Elastic Search (entre otros), y me gustaría ejecutar algunos algoritmos en ciertos conjuntos de datos. Me gustaría que los algoritmos en sí sean escalables, por lo que esto excluye el uso de herramientas como Weka, R o incluso RHadoop. La Biblioteca Apache Mahout parece ser una buena opción, y presenta algoritmos para tareas de regresión y agrupamiento .

Lo que estoy luchando por encontrar es una solución para anomalías o detección de valores atípicos.

Dado que Mahout presenta modelos de Markov ocultos y una variedad de técnicas de agrupamiento (incluyendo K-Means), me preguntaba si sería posible construir un modelo para detectar valores atípicos en series de tiempo, usando cualquiera de estos. Estaría agradecido si alguien con experiencia en esto pudiera aconsejarme

si es posible, y en caso de que sea
cómo hacerlo, además
una estimación del esfuerzo involucrado y
precisión / problemas de este enfoque.

— doblebyte
fuente

1

Esto es demasiado vago para ser respondido. Las series de tiempo son demasiado diferentes para simplemente arrojar k-means sobre ellas y sacar cualquier cosa útil. Es en gran medida depende de sus datos.

— HA SALIDO - Anony-Mousse

1

Para la detección de valores atípicos, eche un vistazo a los algoritmos en ELKI. Esa parece ser la colección más completa de detección de valores atípicos.

— HA SALIDO - Anony-Mousse

Las versiones más nuevas de Elasticsearch tienen una detección de anomalías de series temporales incorporada (creo que debe comprar el X-Pack). No estoy seguro de qué algoritmos están utilizando, pero podría valer la pena investigar una solución estándar.

— tom

7

Echaría un vistazo al algoritmo t-digest . Se ha fusionado en mahout y también es parte de algunas otras bibliotecas para la transmisión de datos grandes. Puede obtener más información sobre este algoritmo en particular y la detección de anomalías de big data en general en los siguientes recursos:

— Prudenko
fuente

¿Cómo se compara t-digest con el algoritmo p-cuadrado?

— David Marx

Gracias por la respuesta: este es un modelo simple para calcular cuantiles extremos, y creo que se ajustará a mis necesidades. Sin embargo, para series de tiempo más complejas que no tienen una distribución casi estacionaria, este enfoque puede fallar, y es entonces cuando creo que necesitaríamos algo adaptativo, como una cadena de Markov.

— doublebyte

0

Puede consultar mi respuesta relacionada con el método de detección de anomalías h2o R o Python en stackexchange , ya que también es escalable.

— 0xF
fuente