La respuesta de Brian Borchers es bastante buena: los datos que contienen valores atípicos extraños a menudo no son bien analizados por OLS. Solo voy a ampliar esto agregando una imagen, un Monte Carlo y algo de R
código.
Yi ϵi=β1xi+ϵi=⎧⎩⎨⎪⎪N(0,0.04)31−31w.p.w.p.w.p.0.9990.00050.0005
Este modelo se ajusta a su configuración con un coeficiente de pendiente de 1.
El gráfico adjunto muestra un conjunto de datos que consta de 100 observaciones en este modelo, con la variable x que va de 0 a 1. En el conjunto de datos trazado, hay un sorteo del error que aparece con un valor atípico (+31 en este caso) . También se trazan la línea de regresión OLS en azul y la línea de regresión de desviaciones menos absolutas en rojo. Observe cómo OLS pero no LAD está distorsionado por el valor atípico:
xϵR
Mean Std Dev Minimum Maximum
Slope by OLS 1.00 0.34 -1.76 3.89
Slope by LAD 1.00 0.09 0.66 1.36
Tanto OLS como LAD producen estimadores insesgados (las pendientes son 1.00 en promedio sobre las 10,000 repeticiones) OLS produce un estimador con una desviación estándar mucho mayor, sin embargo, 0,34 frente a 0,09. Por lo tanto, OLS no es el mejor / más eficiente entre los estimadores imparciales, aquí. Todavía es AZUL, por supuesto, pero LAD no es lineal, por lo que no hay contradicción. Observe los errores salvajes que OLS puede cometer en la columna Min y Max. No tan LAD.
Aquí está el código R para el gráfico y el Monte Carlo:
# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea
# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.
library(quantreg)
library(plyr)
# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.
set.seed(34543)
# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
summary(mixture)
summary(e)
# Regression model with beta=1
x <- 1:100 / 100
y <- x + e
# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)
# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)
# plot, noticing how much the outlier effects ols and how little
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)
# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall. The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200. Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)
x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)
ols.slopes <- ddply(mc.df,.(replication),
function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"
lad.slopes <- ddply(mc.df,.(replication),
function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"
summary(ols.slopes)
sd(ols.slopes$estimate)
summary(lad.slopes)
sd(lad.slopes$estimate)