Para ilustrar el problema de estabilidad numérica mencionado por @cbeleites, aquí hay un ejemplo de Simon Wood sobre cómo "romper" lm()
. Primero generaremos algunos datos simples y ajustaremos una curva cuadrática simple.
set.seed(1); n <- 100
xx <- sort(runif(n))
y <- .2*(xx-.5)+(xx-.5)^2 + rnorm(n)*.1
x <- xx+100
b <- lm(y ~ x+I(x^2))
plot(x,y)
lines(x, predict(b), col='red')
Pero si agregamos 900 a X, entonces el resultado debería ser más o menos el mismo, excepto desplazado a la derecha, ¿no? Lamentablemente no...
X <- x + 900
B <- lm(y ~ X+I(X^2))
plot(X,y)
lines(X, predict(B), col='blue')
Edite para agregar al comentario de @Scortchi: si miramos el objeto devuelto por lm (), vemos que el término cuadrático no se ha estimado y se muestra como NA.
> B
Call:
lm(formula = y ~ X + I(X^2))
Coefficients:
(Intercept) X I(X^2)
-139.3927 0.1394 NA
Y de hecho, como lo sugiere @Scortchi, si miramos la matriz del modelo y tratamos de resolverla directamente, "se rompe".
> X <- model.matrix(b) ## get same model matrix used above
> beta.hat <- solve(t(X)%*%X,t(X)%*%y) ## direct solution of ‘normal equations’
Error in solve.default(t(X) %*% X, t(X) %*% y) :
system is computationally singular: reciprocal condition number = 3.9864e-19
Sin embargo, lm()
no me da ningún mensaje de advertencia o error que no sea el NA
s en la I(X^2)
línea de summary(B)
R-3.1.1. Por supuesto, otros algoritmos pueden "romperse" de diferentes maneras con diferentes ejemplos.