Tengo un vector y quiero detectar valores atípicos en él.
La siguiente figura muestra la distribución del vector. Los puntos rojos son valores atípicos. Los puntos azules son puntos normales. Los puntos amarillos también son normales.
Necesito un método de detección de valores atípicos (un método no paramétrico) que pueda detectar puntos rojos como valores atípicos. Probé algunos métodos como IQR, desviación estándar, pero también detectan puntos amarillos como valores atípicos.
Sé que es difícil detectar solo el punto rojo, pero creo que debería haber una forma (incluso una combinación de métodos) para resolver este problema.
Los puntos son lecturas de un sensor por un día. Pero los valores del sensor cambian debido a la reconfiguración del sistema (el entorno no es estático). Los tiempos de las reconfiguraciones son desconocidos. Los puntos azules corresponden al período anterior a la reconfiguración. Los puntos amarillos son para después de la reconfiguración, lo que causa una desviación en la distribución de las lecturas (pero son normales). Los puntos rojos son el resultado de la modificación ilegal de los puntos amarillos. En otras palabras, son anomalías que deben detectarse.
Me pregunto si la estimación de la función de suavizado del núcleo ('pdf', 'survivor', 'cdf', etc.) podría ayudar o no. ¿Alguien ayudaría sobre su funcionalidad principal (u otros métodos de suavizado) y la justificación para usar en un contexto para resolver un problema?