Es casi siempre un engaño para eliminar observaciones para mejorar un modelo de regresión. Debería dejar las observaciones solo cuando realmente piense que en realidad son valores atípicos.
Por ejemplo, tiene series de tiempo del monitor de frecuencia cardíaca conectado a su reloj inteligente. Si echa un vistazo a la serie, es fácil ver que habría observaciones erróneas con lecturas como 300bps. Deben eliminarse, pero no porque desee mejorar el modelo (lo que sea que signifique). Son errores de lectura que no tienen nada que ver con tu ritmo cardíaco.
Sin embargo, una cosa a tener cuidado es la correlación de errores con los datos. En mi ejemplo, podría argumentarse que tiene errores cuando el monitor de frecuencia cardíaca se desplaza durante ejercicios como correr o saltar. Lo que hará que estos errores se correlacionen con la frecuencia cardíaca. En este caso, se debe tener cuidado al eliminar estos valores atípicos y errores, ya que no son aleatorios
Te daré un ejemplo inventado de cuándo no eliminar los valores atípicos . Digamos que estás midiendo el movimiento de una pesa en un resorte. Si el peso es pequeño en relación con la fuerza del peso, entonces notará que la ley de Hooke funciona muy bien: donde F es fuerza, k - coeficiente de tensión y Δ x es la posición del peso .
F= - k Δ x ,
FkΔ x
Ahora, si coloca un peso muy pesado o lo desplaza demasiado, comenzará a ver desviaciones: con desplazamientos lo suficientemente grandes el movimiento parecerá desviarse del modelo lineal. Por lo tanto, podría verse tentado a eliminar los valores atípicos para mejorar el modelo lineal. Esta no sería una buena idea, porque el modelo no funciona muy bien, ya que la ley de Hooke es aproximadamente correcta.Δx
ACTUALIZACIÓN En su caso, sugeriría extraer esos puntos de datos y mirarlos más de cerca. ¿Podría ser la falla del instrumento de laboratorio? Interferencia externa? Defecto de la muestra? etc.
Luego, trate de identificar si la presencia de estos valores atípicos podría correlacionarse con lo que usted mide en el ejemplo que proporcioné. Si hay correlación, entonces no hay una manera simple de hacerlo. Si no hay correlación, puede eliminar los valores atípicos