@cardinal ha telegrafiado una respuesta en los comentarios. Vamos a desarrollarlo. Su punto es que, aunque los modelos lineales generales (como los implementados por lm
y, en este caso, glmRob
) parecen tener la intención de evaluar las relaciones entre variables, también pueden ser herramientas poderosas para estudiar una sola variable. El truco se basa en el hecho de que la regresión de datos contra una constante es solo otra forma de estimar su valor promedio ("ubicación") .
Como ejemplo, genere algunos datos distribuidos por Poisson:
set.seed(17)
x <- rpois(10, lambda=2)
En este caso, R
producirá el vector de valores para una distribución de Poisson de la media . Estime su ubicación con :( 1 , 5 , 2 , 3 , 2 , 2 , 1 , 1 , 3 , 1 )x
2glmRob
library(robust)
glmrob(x ~ 1, family=poisson())
La respuesta nos dice que la intercepción se estima en . Por supuesto, cualquiera que use un método estadístico necesita saber cómo funciona: cuando usa modelos lineales generalizados con la familia Poisson, la función estándar de "enlace" es el logaritmo. Esto significa que la intersección es el logaritmo de la ubicación estimada. Entonces calculamos0,7268
exp(0.7268)
El resultado, , se acerca cómodamente a : el procedimiento parece funcionar. Para ver qué está haciendo, trace los datos:2.06852
plot(x, ylim=c(0, max(x)))
abline(exp(0.7268), 0, col="red")
La línea ajustada es puramente horizontal y, por lo tanto, estima la mitad de los valores verticales: nuestros datos. Eso es todo lo que está pasando.
Para verificar la robustez, creemos un valor atípico incorrecto agregando unos ceros al primer valor de x
:
x[1] <- 100
Esta vez, para una mayor flexibilidad en el procesamiento posterior, guardaremos la salida de glmRob
:
m <- glmrob(x ~ 1, family=poisson())
Para obtener el promedio estimado podemos solicitar
exp(m$coefficients)
El valor esta vez es igual a : un poco apagado, pero no muy lejos, dado que el valor promedio de (obtenido como ) es . Ese es el sentido en que este procedimiento es "robusto". Se puede obtener más información a través de2.496x
mean(x)
12
summary(m)
Su salida nos muestra, entre otras cosas, que el peso asociado con el valor periférico de in es solo , casi , señalando el presunto atípico.100x[1]
0.021790