Diferencia entre Outlier e Inlier

Me he topado con el término inlier en la medida LOF (Factor de valor atípico local), estoy familiarizado con el término de valores atípicos (bueno, básicamente mentirosos, instancias que no se comportan como el resto de las instancias).

¿Qué significa 'Inliers' en el contexto de la detección de anomalías? y cómo se relaciona con (diferentes de) los valores atípicos

residuals outliers anomaly-detection

— Anton.P
fuente

ec.europa.eu/eurostat/statistics-explained/index.php/… y stats.oecd.org/glossary/detail.asp?ID=3464

— Mark L. Stone

Esta es un área donde hay un poco de inconsistencia en la terminología que tiene el desafortunado efecto de confundir algunas discusiones estadísticas. El concepto de un " inlier"se usa generalmente para referirse a un valor de datos que está en error (es decir, sujeto a error de medición) pero que, sin embargo, se encuentra en el" interior "de la distribución de los valores medidos correctamente. Según esta definición, el elemento interno tiene dos aspectos: (1 ) está en el interior de la distribución de valores relevante y (2) es un valor erróneo. Por el contrario, la noción correspondiente de "valor atípico" se usa generalmente para referirse a cualquier valor de datos que esté muy lejos de las colas del distribución, pero sin ningún aspecto de definición suponiendo que está en error. Esta terminología produce una desafortunada inconsistencia, donde un "inlier" es un punto de datos erróneo (por definición) pero un "outlier" no es necesariamente un punto de datos erróneo. bajo esta terminología, la unión de "inliers" y "outliers"no corresponde ni a todos los datos, ni siquiera a todos los datos erróneos.

Tratar con valores atípicos: he discutido tratar con valores atípicos en otras preguntas aquí y aquí , pero por conveniencia, repetiré algunos de esos comentarios aquí. Los valores atípicos son puntos que están distantes del grueso de otros puntos en una distribución, y el diagnóstico de un "valor atípico" se realiza mediante la comparación del punto de datos con alguna forma de distribución supuesta. Aunque los valores atípicos ocasionalmente pueden ser causados por un error de medición, el diagnóstico de valores atípicos también puede ocurrir cuando los datos siguen una distribución con curtosis alta (es decir, colas gruesas), pero el analista compara los puntos de datos con una forma de distribución asumida con curtosis baja (p. Ej., La distribución normal).

La marcación de "valores atípicos" en las pruebas atípicas realmente significa que la distribución del modelo que está utilizando no tiene colas lo suficientemente gordas para representar con precisión los datos observados. Esto podría deberse a que algunos de los datos contienen errores de medición, o podrían ser simplemente de una distribución con colas gruesas. A menos que haya alguna razón para pensar que la desviación de la forma del modelo asumido constituye evidencia de error de medición (lo que requeriría una base teórica para el supuesto de distribución), la presencia de valores atípicos generalmente significa que debe cambiar su modelo para usar una distribución más gruesa cruz. Es inherentemente difícil distinguir entre el error de medición y la curtosis alta que es parte de la distribución subyacente.

Tratar con inliers (que generalmente implica no tratar con ellos): a menos que tenga una fuente de información externa que indique un error de medición, es esencialmente imposible identificar "inliers". Por definición, estos son puntos de datos que se encuentran en el "interior" de la distribución, donde se produce la mayoría de los otros datos. Por lo tanto, no se detecta mediante pruebas que buscan datos que son una "anulación" de los otros puntos de datos. (En algunos casos, puede detectar "valores internos" que parecen estar en el interior de una distribución, pero en realidad son "valores atípicos" cuando se toman con respecto a una representación más compleja de la distribución. En este caso, el punto es realmente un valor atípico,

En algunos casos excepcionales, es posible que tenga una fuente de información externa que identifique un subconjunto de sus datos como sujeto a errores de medición (por ejemplo, si está realizando una encuesta grande y descubre que uno de sus topógrafos estaba inventando sus datos ) En este caso, los puntos de datos en ese subconjunto que están en el interior de la distribución son "inliers" y se sabe que a través de información externa están sujetos a errores de medición. En este caso, generalmente eliminaría todos los datos que se sabe que son erróneos, incluso si algunos de ellos son "inliers" que están en el interior de la distribución donde esperaría que estuvieran. El punto aquí es que un punto de datos puede ser erróneo incluso si no está en la cola de la distribución.

— Ben - Restablece a Monica
fuente