tl; dr
- ¿Cuál es la forma recomendada de manejar los
discrete
datos cuando se realiza la detección de anomalías? - ¿Cuál es la forma recomendada de manejar los
categorical
datos cuando se realiza la detección de anomalías? - Esta respuesta sugiere usar datos discretos para simplemente filtrar los resultados.
- ¿Quizás reemplazar el valor de la categoría con la posibilidad de observación del perctage?
Introducción
Esta es la primera vez que publico aquí, así que, por favor, si algo no parece técnicamente correcto, ya sea en el formato o en el uso de definiciones correctas, me interesa saber qué debería haberse usado en su lugar.
Adelante.
Recientemente participé en la clase de Machine Learning de Andrew Ng
Para la detección de anomalías, se nos ha enseñado a determinar cuáles son los parámetros de distribución Normal / Gaussiana para una característica / variable dada, dentro de un conjunto de datos, y luego determinar la probabilidad de un conjunto elegido de ejemplos de entrenamiento / valor de observación dado ese particular Distribución gaussiana, y luego tomando el producto de las probabilidades de las características.
Método
Elija las características / variables que creemos que explican la actividad en cuestión: { x 1 , x 2 , ... , x i }
Ajuste los parámetros de Gauss para cada característica: σ2=1
Para cada ejemplo de entrenamiento, , calcule: p ( x ) = n ∏ j = 1 p ( x j ; μ j , σ 2 j )
Luego marcamos como una anomalía ( ), dado: y = { 1
Esto nos da el método para determinar si un ejemplo requiere una inspección más profunda.
Mis preguntas)
Esto parece estar bien para variables / características continuas, pero no se abordan datos discretos.
Preguntas: (actualizado: 24/11/2015)
¿Existe otro método que tenga en cuenta lo que estoy preguntando aquí y que pueda seguir investigando / aprendiendo?- ¿Cuál es la forma recomendada de manejar los
discrete
datos cuando se realiza la detección de anomalías? - ¿Cuál es la forma recomendada de manejar los
categorical
datos cuando se realiza la detección de anomalías?
Editar: 2017-05-03
- Esta respuesta sugiere usar datos discretos para simplemente filtrar los resultados.
- ¿Quizás reemplazar el valor de la categoría con la posibilidad de observación del perctage?