¿Es una trampa descartar los valores atípicos basados ​​en el diagrama de caja de Error absoluto medio para mejorar un modelo de regresión?


15

Tengo un modelo de predicción probado con cuatro métodos, como puede ver en la figura del diagrama de caja a continuación. El atributo que predice el modelo está en el rango de 0-8.

Puede notar que hay un valor atípico de límite superior y tres valores atípicos de límite inferior indicados por todos los métodos. Me pregunto si es apropiado eliminar estas instancias de los datos. ¿O es una especie de trampa para mejorar el modelo de predicción?

ingrese la descripción de la imagen aquí


1
(1) Veo resultados para cuatro métodos, no tres. (2) ¿Cómo podría la eliminación de la evidencia de las capacidades de predicción posiblemente mejorar los métodos?
whuber

@whuber (1) es fijo. Para el (2), por lo que implica la supresión de una instancia que se prevé muy imprecisa, que no conduce a una mejor predicción de rendimiento en general (esto era lo que quería decir con "mejorar el modelo" ?
renakre

77
eliminar una observación por cualquier razón (digamos los 4 puntos menos adecuados) es en sí misma una opción modelo. Debe evaluar el desempeño de los pronósticos de esta segunda opción modelo demasiado . El punto sobresaliente es preservar la integridad del conjunto de prueba final utilizado para evaluar el rendimiento del método de predicción general. No queda claro a partir de su pregunta si planea reajustar los modelos (lazo, etc.) después de eliminar los datos mal pronosticados.
usuario603

2
Como comentario adicional, agregaría que en algún momento se oculta un gran valor en los valores atípicos y que vale la pena mirarlos cuidadosamente.
Dror Atariah

@DrorAtariah Gracias Dror, estoy de acuerdo. Los casos extremos son valiosos.
renakre

Respuestas:


22

Es casi siempre un engaño para eliminar observaciones para mejorar un modelo de regresión. Debería dejar las observaciones solo cuando realmente piense que en realidad son valores atípicos.

Por ejemplo, tiene series de tiempo del monitor de frecuencia cardíaca conectado a su reloj inteligente. Si echa un vistazo a la serie, es fácil ver que habría observaciones erróneas con lecturas como 300bps. Deben eliminarse, pero no porque desee mejorar el modelo (lo que sea que signifique). Son errores de lectura que no tienen nada que ver con tu ritmo cardíaco.

Sin embargo, una cosa a tener cuidado es la correlación de errores con los datos. En mi ejemplo, podría argumentarse que tiene errores cuando el monitor de frecuencia cardíaca se desplaza durante ejercicios como correr o saltar. Lo que hará que estos errores se correlacionen con la frecuencia cardíaca. En este caso, se debe tener cuidado al eliminar estos valores atípicos y errores, ya que no son aleatorios

Te daré un ejemplo inventado de cuándo no eliminar los valores atípicos . Digamos que estás midiendo el movimiento de una pesa en un resorte. Si el peso es pequeño en relación con la fuerza del peso, entonces notará que la ley de Hooke funciona muy bien: donde F es fuerza, k - coeficiente de tensión y Δ x es la posición del peso .

F=-kΔX,
FkΔX

Ahora, si coloca un peso muy pesado o lo desplaza demasiado, comenzará a ver desviaciones: con desplazamientos lo suficientemente grandes el movimiento parecerá desviarse del modelo lineal. Por lo tanto, podría verse tentado a eliminar los valores atípicos para mejorar el modelo lineal. Esta no sería una buena idea, porque el modelo no funciona muy bien, ya que la ley de Hooke es aproximadamente correcta.ΔX

ACTUALIZACIÓN En su caso, sugeriría extraer esos puntos de datos y mirarlos más de cerca. ¿Podría ser la falla del instrumento de laboratorio? Interferencia externa? Defecto de la muestra? etc.

Luego, trate de identificar si la presencia de estos valores atípicos podría correlacionarse con lo que usted mide en el ejemplo que proporcioné. Si hay correlación, entonces no hay una manera simple de hacerlo. Si no hay correlación, puede eliminar los valores atípicos


2
It is always a cheating to remove outliers to improve a regression model. ¿Considera la regresión de splines como trampa ? FWIW, realiza observaciones de bajo peso para mejorar el modelo de regresión [local] ~
user603

1
No estoy de acuerdo "Siempre es una trampa eliminar los valores atípicos para mejorar un modelo de regresión". existen muchas herramientas para hacer diagnósticos de regresión, y el objetivo es detectar y "eliminar" valores atípicos y volver a instalar el modelo.
Haitao Du

66
@ hxd1011 las herramientas como Grubbs no son para eliminar automáticamente los valores atípicos. Solo indican que puede haber un valor atípico, luego usted decide si es realmente un valor atípico. Es un enfoque muy peligroso para mejorar el diagnóstico de ajuste al eliminar los valores atípicos automáticamente. Tienes que analizarlos caso por caso.
Aksakal

2
Ok, lo entiendo. Mi idioma original era demasiado rígido. Edité la oración de apertura. Gracias por sus comentarios a los comentaristas
Aksakal

1
@renakre, si no crees que estos son valores atípicos, entonces no elimines las observaciones. Sin embargo, lo que debe tener en cuenta es la medida de la bondad del pronóstico que no sea el error cuadrado. Por ejemplo, si estas instancias no son tan importantes para usted, entonces quizás no necesite ponderarlas al cuadrado y, en su lugar, usar desviación absoluta, etc. La medida debe reflejar la importancia del error de pronóstico, como las pérdidas en dólares en cada error de predicción . Además, el hecho de que estos son recuentos no significa automáticamente que no haya errores de instrumentos, los complementos de la página web que cuentan los clics pueden fallar
Aksakal

4

Originalmente quería publicar esto como un comentario a otra respuesta, pero se hizo demasiado largo para adaptarse.

Cuando miro su modelo, no necesariamente contiene un grupo grande y algunos valores atípicos. En mi opinión, contiene 1 grupo de tamaño mediano (1 a -1) y luego 6 grupos más pequeños, cada uno encontrado entre 2 números enteros. Puedes ver claramente que cuando alcanzas un número entero, hay menos observaciones en esas frecuencias. El único punto especial es 0, donde no hay realmente una caída perceptible en las observaciones.

En mi opinión, vale la pena abordar por qué esta distribución se distribuye así:

  • ¿Por qué la distribución tiene estas caídas de conteo de observación en números enteros?
  • ¿Por qué esta caída del recuento de observaciones no ocurre en 0?
  • ¿Qué tienen de especial estos valores atípicos que son valores atípicos?

Al medir acciones humanas discretas, siempre tendrá valores atípicos. Puede ser interesante ver por qué esos valores atípicos no se ajustan a su modelo y cómo se pueden usar para mejorar futuras iteraciones de su modelo.


+1. La brecha de números enteros parece no siempre ser correcta en los números enteros, por lo que es posible que más de nosotros veamos un patrón que no existe, pero podría ser un artefacto de recopilación de datos, codificación o discretización que podría arrojar luz en los datos en su conjunto. Incluso puede haber una brecha en 0 que está oscurecida por la gran cantidad de puntos superpuestos y tal vez nerviosos. Definitivamente vale la pena volver al origen para ver si los datos son lo que creemos que son.
Wayne

2

Hay pros y contras para eliminar los valores atípicos y construir el modelo solo para "patrón normal".

  • Pros: el rendimiento del modelo es mejor. La intuición es que es muy difícil usar UN modelo para capturar tanto el "patrón normal" como el "patrón atípico". Así que eliminamos los valores atípicos y decimos que solo creamos un modelo para el "patrón normal".

  • Contras: no podremos predecir valores atípicos. En otras palabras, supongamos que ponemos nuestro modelo en producción, faltarían algunas predicciones del modelo

Sugeriría eliminar los valores atípicos y construir el modelo, y si es posible, intente construir un modelo separado solo para valores atípicos.

Para la palabra "trampa", si está escribiendo un documento y enumera explícitamente cómo define y elimina los valores atípicos, y la mención de un rendimiento mejorado solo se encuentra en los datos limpios. No es hacer trampa.


3
No me importa ser rechazado, pero ¿alguien podría decirme la razón?
Haitao Du

He votado :) ¿También crees que es una buena idea eliminar los valores atípicos y luego volver a muestrear los datos para seguir probando el modelo de predicción?
renakre

1
@renakre, te sugiero que pienses en qué hacer en la producción. Supongamos que si encuentra valores atípicos es solo del 1%, y está bien no producir ningún resultado en la producción. Luego simplemente quítelos. Si encuentra valores atípicos es del 30%, y no está bien omitir las predicciones en la producción. Luego trate de tener un modelo separado para ello.
Haitao Du

Principalmente estamos probando cosas para ver si podemos predecir alguna variable de resultado. ¿ if it is fine to produce no output in productionSignifica lo mismo? Entonces, si comenzamos a usar nuestro modelo en una aplicación real para probar la variable de resultado y usar el puntaje predicho en la aplicación, ¿no estaría bien eliminar los valores atípicos (especialmente si son tantos como usted mencionó)? ¿Es esto lo que quisiste decir?
renakre

1
@renakre ¡Estás muerto! Eso es lo que hemos hecho recientemente con AITOBOX, donde los límites de pronóstico no solo se basan en los pesos psi, sino también en los errores muestreados con valores atípicos. Esto se hace no solo para los modelos ARIMA sino también para los modelos causales donde la incertidumbre en los predictores también se incorpora de manera similar.
IrishStat

2

Creo que es razonable eliminar los valores atípicos cuando uno tiene una razón cualitativa sólida para hacerlo. Con esto quiero decir que uno tiene información de que otra variable, que no está en el modelo, está afectando las observaciones atípicas. Entonces uno tiene la opción de eliminar el valor atípico o agregar variables adicionales.

Encuentro que cuando tengo observaciones atípicas dentro de mi conjunto de datos, al estudiar para determinar por qué existe el atípico, aprendo más sobre mis datos y otros posibles modelos a considerar.


1
Bienvenido a stats.SE! Tómese un momento para ver nuestro recorrido . Sería útil si expandiera su respuesta para responder más completamente a la pregunta (como la determinación de valores atípicos basados ​​en el diagrama de caja, los impactos que este método puede tener en el modelo de predicción, etc.).
Tavrock

2

Ni siquiera estoy convencido de que sean "valores atípicos". Es posible que desee buscar hacer una gráfica de probabilidad normal. ¿Son datos o residuos del ajuste de un modelo?


son la diferencia entre los valores pronosticados y los reales.
Renakre
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.