Detección de valores atípicos en conjuntos muy pequeños.


12

Necesito obtener un valor lo más preciso posible para el brillo de una fuente de luz principalmente estable dados doce valores de luminosidad de muestra. El sensor es imperfecto, y la luz ocasionalmente puede "parpadear" más brillante o más oscura, lo que puede ignorarse, de ahí mi necesidad de detección de valores atípicos (¿creo?).

He leído un poco sobre varios enfoques aquí y no puedo decidir qué enfoque seguir. El número de valores atípicos nunca se conoce de antemano y, a menudo, será cero. El parpadeo es generalmente una desviación muy grande del brillo estable (suficiente para realmente interferir con cualquier promedio tomado con uno grande presente), pero no necesariamente.

Aquí hay un conjunto de muestra de 12 medidas para completar la pregunta:

295.5214, 277.7749, 274.6538, 272.5897, 271.0733, 292.5856, 282.0986, 275.0419, 273.084, 273.1783, 274.0317, 290.1837

Mi intuición es que probablemente no haya valores atípicos en ese conjunto en particular, aunque 292 y 295 se ven un poco altos.

Entonces, mi pregunta es, ¿cuál sería el mejor enfoque aquí? Debo mencionar que los valores provienen de tomar la distancia euclidiana de los componentes RG y B de la luz desde un punto cero (negro). Sería programáticamente doloroso, pero posible, volver a estos valores si fuera necesario. La distancia euclidiana se usó como una medida de "fuerza general" ya que no estoy interesado en el color, solo en la fuerza de salida. Sin embargo, existe una posibilidad razonable de que los parpadeos que mencioné tengan una composición RGB diferente a la salida habitual.

En este momento estoy jugando con algún tipo de función que se repetirá hasta que se alcance una membresía estable de las medidas permitidas:

  1. Encontrar la desviación estándar
  2. Poniendo todo afuera, digamos 2 SD en una lista de ignorados
  3. Recalculando el promedio y SD con la lista de ignorados excluida
  4. Volver a decidir a quién ignorar según el nuevo promedio y la DE (evalúe los 12)
  5. Repita hasta que esté estable.

¿Hay algún valor en ese enfoque?

¡Todos los comentarios agradecidos!


Aunque sea doloroso, vale la pena seguir su especulación de que un parpadeo podría tener diferentes componentes RGB (aunque a veces una distancia similar al negro). Otra opción es simplemente usar la mediana en lugar de la media, dependiendo de su objetivo.
Wayne

Respuestas:


7

Los valores atípicos en muestras pequeñas siempre pueden ser muy difíciles de detectar. En la mayoría de los casos, realmente recomendaría que si considera que sus datos no están corruptos, un valor "atípico" podría no ser problemático y su exclusión podría no ser razonable. Probablemente el uso de técnicas estadísticas robustas será más sensible y más cercano a una solución intermedia. Tienes una pequeña muestra; trate de hacer que cada punto de muestra cuente. :)

Con respecto a su enfoque sugerido: no aplicaría apresuradamente una suposición de normalidad a sus datos con una regla 68-95-99.7 sobre ellos (como parece hacer de alguna manera con su regla heurística 2SD). La desigualdad de Chebyshev por una vez supone una regla 75-88.9-93.8 sobre ellos, que es claramente menos rígida. También existen otras " reglas "; la valores atípicos Identificación de sección en el Outlier lema en Wikipedia tiene un conjunto de heurísticas.

Aquí hay otro: una referencia de libro gratuita que he encontrado sobre el tema, NIST / SEMATECH e-Handbook of Statistical Methods , presenta la siguiente idea de Iglewicz y Hoaglin (1993): Use -scores modificado de tal manera que:MZM

Mi=.6745(xix~)/MAD

x~M3.5

Una vez más, dado que tiene una muestra realmente pequeña, si cree que su muestra no está obviamente corrompida (un humano de 9'4 "de altura), le aconsejaría que no excluya los datos apresuradamente. Sus" presuntos atípicos "podrían ser datos no corrompidos; su uso en realidad podría ayudar en lugar de dañar su análisis.


1
x¯x¯x~

1
+1 para un fuerte énfasis en el valor de resúmenes robustos. Vea también otros hilos en este sitio.
Nick Cox

1
@ NickCox: Buen punto, no sé lo que estaba pensando en primer lugar. Lo cambié ahora. Gracias por la sugerencia.
usεr11852


0

Apunte el primero: puede valer la pena volver al color rgb. Raramente es bueno descartar datos, y la magnitud del vector rgb no es la única forma de representar el brillo: el brillo percibido es diferente, al igual que el valor en HSV.

Pero dejando eso a un lado y tratando con los datos que tiene, ¿ha considerado formar esto como un problema de clasificación en lugar de un problema de modelado y hacer algo de aprendizaje automático? Tiene una entrada, que es un vector con 12 valores reales (las lecturas de brillo). Tiene una salida, que es un vector de 12 valores binarios (1 = inlier, 0 = outlier). Obtenga varios conjuntos de lectura de brillo y etiquételos a mano, mostrando qué lectura de brillo en cada conjunto es inlier / outlier. Algo como esto:

Luego, ejecuta todo el lote a través de un clasificador de algún tipo:

  • Podría usar un solo clasificador que genera 12 valores binarios diferentes: una red neuronal le permitiría configurar esto con bastante facilidad.
  • O bien, puede usar un clasificador binario estándar (p . Ej., SVMlite ) y entrenar 12 modelos diferentes, uno de los cuales clasifica si cada elemento de la salida es inlier / outlier.

¡Y tu estas listo! No hay necesidad de preocuparse por encontrar la "regla" que separa a los intrusos de los propios valores. Solo obtenga algunos conjuntos de datos que se vean razonables y deje que la máquina lo haga por usted :)

~~~

EDITAR: Incidentalmente, su método propuesto, en el que ajusta iterativamente un gaussiano y luego clasifica cada muestra a más de 2 desviaciones estándar como un valor atípico, se parece mucho a un algoritmo de maximización de expectativas. Algo como esto:

  • Un solo componente gaussiano (modelado de los inliers)
  • Un componente de fondo uniforme (los valores atípicos)
  • Alguna probabilidad previa de cada uno que depende de manera no obvia del ancho de la gaussiana (la regla 'clasificar en 2 desviaciones estándar').
  • Clasificación difícil en el paso de la expectativa.

Si sigue esa ruta, puede valer la pena buscar en Google algoritmos EM y verificar qué suposiciones está incorporando en su modelo.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.