Detección de anomalías / valores atípicos escalables


10

Estoy tratando de configurar una infraestructura de big data usando Hadoop, Hive, Elastic Search (entre otros), y me gustaría ejecutar algunos algoritmos en ciertos conjuntos de datos. Me gustaría que los algoritmos en sí sean escalables, por lo que esto excluye el uso de herramientas como Weka, R o incluso RHadoop. La Biblioteca Apache Mahout parece ser una buena opción, y presenta algoritmos para tareas de regresión y agrupamiento .

Lo que estoy luchando por encontrar es una solución para anomalías o detección de valores atípicos.

Dado que Mahout presenta modelos de Markov ocultos y una variedad de técnicas de agrupamiento (incluyendo K-Means), me preguntaba si sería posible construir un modelo para detectar valores atípicos en series de tiempo, usando cualquiera de estos. Estaría agradecido si alguien con experiencia en esto pudiera aconsejarme

  1. si es posible, y en caso de que sea
  2. cómo hacerlo, además
  3. una estimación del esfuerzo involucrado y
  4. precisión / problemas de este enfoque.

1
Esto es demasiado vago para ser respondido. Las series de tiempo son demasiado diferentes para simplemente arrojar k-means sobre ellas y sacar cualquier cosa útil. Es en gran medida depende de sus datos.
HA SALIDO - Anony-Mousse

1
Para la detección de valores atípicos, eche un vistazo a los algoritmos en ELKI. Esa parece ser la colección más completa de detección de valores atípicos.
HA SALIDO - Anony-Mousse

Las versiones más nuevas de Elasticsearch tienen una detección de anomalías de series temporales incorporada (creo que debe comprar el X-Pack). No estoy seguro de qué algoritmos están utilizando, pero podría valer la pena investigar una solución estándar.
tom

Respuestas:


7

¿Cómo se compara t-digest con el algoritmo p-cuadrado?
David Marx

Gracias por la respuesta: este es un modelo simple para calcular cuantiles extremos, y creo que se ajustará a mis necesidades. Sin embargo, para series de tiempo más complejas que no tienen una distribución casi estacionaria, este enfoque puede fallar, y es entonces cuando creo que necesitaríamos algo adaptativo, como una cadena de Markov.
doublebyte

0

Puede consultar mi respuesta relacionada con el método de detección de anomalías h2o R o Python en stackexchange , ya que también es escalable.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.