Muchas veces un analista estadístico recibe un conjunto de datos y se le pide que se ajuste a un modelo utilizando una técnica como la regresión lineal. Con mucha frecuencia, el conjunto de datos va acompañado de una exención de responsabilidad similar a "Oh, sí, nos equivocamos al recopilar algunos de estos puntos de datos: haga lo que pueda".
Esta situación conduce a ajustes de regresión que se ven fuertemente afectados por la presencia de valores atípicos que pueden ser datos erróneos. Dado lo siguiente:
Es peligroso tanto desde el punto de vista científico como moral arrojar datos sin otra razón que "hace que el ajuste se vea mal".
En la vida real, las personas que recopilaron los datos con frecuencia no están disponibles para responder preguntas como "al generar este conjunto de datos, ¿cuál de los puntos confundió exactamente?"
¿Qué pruebas estadísticas o reglas generales se pueden utilizar como base para excluir los valores atípicos en el análisis de regresión lineal?
¿Hay alguna consideración especial para la regresión multilineal?