¿Cuál es la diferencia entre Outlier y Anomaly en el contexto del aprendizaje automático? Tengo entendido que ambos se refieren a lo mismo.
¿Cuál es la diferencia entre Outlier y Anomaly en el contexto del aprendizaje automático? Tengo entendido que ambos se refieren a lo mismo.
Respuestas:
Los dos términos son sinónimos según:
Aggarwal, Charu C. Análisis de valores atípicos. Springer Nueva York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1
Cita de la página 1:
Los valores atípicos también se conocen como anormalidades, discordancias, desviaciones o anomalías en la literatura de minería de datos y estadísticas.
El texto en negrita no es parte del texto original.
El pdf de descarga gratuita del libro disponible del autor está aquí.
Una respuesta irónica:
Outlier: un valor que puede encontrar en sus datos de manera predecible que indica que su modelo no funciona correctamente
Anomalía: un valor que, contra todo pronóstico, encuentra en sus datos que indica que su modelo funciona correctamente
Una respuesta más seria, menos críptica:
El concepto de valores atípicos comienza con la cuestión de construir un modelo que haga suposiciones sobre los datos. Los valores atípicos a menudo son indicadores de que el modelo no describe los datos correctamente y, por lo tanto, debemos cuestionar los resultados de nuestro modelo o la calidad de nuestros datos.
El concepto de anomalías comienza fuera del mundo teórico y dentro del mundo aplicado: queremos buscar comportamientos inusuales en nuestros datos, a veces motivados por el hecho de que estamos interesados en encontrar comportamientos que alguien está tratando de ocultar (como un virus en un correo electrónico). El problema es que, dado que las personas están tratando de ocultar lo que están haciendo, realmente no sabemos qué buscar. Por lo tanto, tomamos un conjunto de datos "buenos" y decidimos que todo lo que encontremos en nuestro nuevo conjunto de datos que no se vea "bueno" es una anomalía y vale la pena dedicarle más tiempo a la comprobación. A menudo, buscar anomalías significa buscar valores atípicos en su nuevo conjunto de datos. ¡Pero tenga en cuenta que estos valores pueden ser muy comunes en su nuevo conjunto de datos, a pesar de ser raros en su antiguo conjunto de datos!
En resumen, los dos conceptos son muy similares en términos de las estadísticas detrás de ellos (es decir, valores inusuales dado su modelo ajustado), pero vienen a la idea desde diferentes ángulos. Además, cuando hablamos de valores atípicos, generalmente nos referimos a un punto de datos inusual en los datos utilizados para ajustar nuestro modelo , donde una anomalía generalmente se entiende como un punto de datos inusual en un conjunto de datos fuera de los datos utilizados para ajustar nuestro modelo .
Nota: esta respuesta se basa en cómo he visto los dos términos utilizados con frecuencia en lugar de definiciones formales. Las experiencias del usuario pueden diferir.
Una anomalía es un resultado que no puede explicarse dada la distribución base (una imposibilidad si nuestras suposiciones son correctas). Un valor atípico es un evento improbable dada la distribución base (una improbabilidad).
Los términos se utilizan en gran medida de manera intercambiable. "Outlier" se refiere a algo que está fuera de la norma, por lo que es "anómalo". Pero tengo la impresión de que "atípico" se usa generalmente para observaciones muy raras . En estadística, en una distribución normal, consideraría que tres sigma son valores atípicos. Es decir, se espera que el 99.7% de sus objetos sean "normales". "Anomalía" se usa mucho más liberalmente. Si de repente tiene millones de visitantes en su sitio web, estos no son visitantes raros. Sin embargo, el aumento repentino de visitantes sigue siendo "anómalo", mientras que cada visitante individual no es un "caso atípico".
Puede haber sido en este artículo donde vi discutidas estas diferencias, pero desafortunadamente no puedo acceder a ellas en este momento.
Análisis estadístico y minería de datos, Volumen 5, Número 5, octubre de 2012, páginas 363–387 Una encuesta sobre detección de valores atípicos no supervisados en datos numéricos de alta dimensión
Solo para enturbiar aún más las aguas, la anomalía en climatología solo implica la diferencia entre el valor y la media, o una desviación:
El término anomalía de temperatura significa una desviación de un valor de referencia o promedio a largo plazo. Una anomalía positiva indica que la temperatura observada fue más cálida que el valor de referencia, mientras que una anomalía negativa indica que la temperatura observada fue más fría que el valor de referencia.
Eso bien puede considerarse como un aprendizaje automático externo, pero las personas interesadas en la pregunta pueden estar interesadas en esto.
Una anomalía puede ser un punto de datos, o también una tendencia general o comportamiento observado en los datos después de que un modelo ya se ha construido o se ha entendido el proceso de generación de datos. Se enfrenta a anomalías porque el sistema comienza a comportarse de manera diferente, o busca dichos puntos de datos, porque desea estar informado cuando ocurre un evento durante el cual su modelo no es válido. Puede que le interese observar cualquier comportamiento anómalo en las amplitudes de las olas oceánicas, no porque quiera deshacerse de esos puntos de datos y construir un mejor modelo, sino porque quiere saber cuándo podría estar ocurriendo un tsunami.