Cuando calculo una caminata aleatoria con un AR (1), el coeficiente es muy cercano a 1 pero siempre menor.
¿Cuál es la razón matemática por la cual el coeficiente no es mayor que uno?
Cuando calculo una caminata aleatoria con un AR (1), el coeficiente es muy cercano a 1 pero siempre menor.
¿Cuál es la razón matemática por la cual el coeficiente no es mayor que uno?
Respuestas:
Estimamos por OLS el modelo
Para una muestra de tamaño T, el estimador es
Si el verdadero mecanismo de generación de datos es una caminata aleatoria pura, entonces , y
La distribución de muestreo de la OLS estimador, o equivalentemente, la distribución de muestreo de ρ - , no es de alrededor simétrica cero, sino que es sesgada a la izquierda de cero, con ≈ 68 % de los valores obtenidos (es decir ≈ masa de probabilidad) ser negativo, por lo que obtener más a menudo que no ρ < 1 . Aquí hay una distribución de frecuencia relativa
Esto a veces se llama la distribución "Dickey-Fuller", porque es la base de los valores críticos utilizados para realizar las pruebas de raíz unitaria del mismo nombre.
No recuerdo haber visto un intento de proporcionar intuición para la forma de la distribución de muestreo. Estamos viendo la distribución muestral de la variable aleatoria
Si 's son Normal Normal, entonces el primer componente de
Si sumamos productos normales independientes, obtenemos una distribución que permanece simétrica alrededor de cero. Por ejemplo:
Pero si sumamos productos normales no independientes como es nuestro caso, obtenemos
que está sesgada a la derecha pero con más probabilidad de masa asignada a los valores negativos. Y parece que la masa se empuja aún más hacia la izquierda si aumentamos el tamaño de la muestra y agregamos más elementos correlacionados a la suma.
El recíproco de la suma de Gammas no independientes es una variable aleatoria no negativa con sesgo positivo.
Esto no es realmente una respuesta, pero es demasiado largo para un comentario, así que publico esto de todos modos.
Pude obtener un coeficiente mayor que 1 dos veces de cien para un tamaño de muestra de 100 (usando "R"):
N=100 # number of trials
T=100 # length of time series
coef=c()
for(i in 1:N){
set.seed(i)
x=rnorm(T) # generate T realizations of a standard normal variable
y=cumsum(x) # cumulative sum of x produces a random walk y
lm1=lm(y[-1]~y[-T]) # regress y on its own first lag, with intercept
coef[i]=as.numeric(lm1$coef[1])
}
length(which(coef<1))/N # the proportion of estimated coefficients below 1
Las realizaciones 84 y 95 tienen un coeficiente superior a 1, por lo que no siempre es inferior a uno. Sin embargo, la tendencia es claramente tener una estimación sesgada hacia abajo. La pregunta sigue siendo, ¿por qué ?
Editar: las regresiones anteriores incluyeron un término de intercepción que no parece pertenecer al modelo. Una vez que se elimina la intercepción, obtengo muchas más estimaciones por encima de 1 (3158 de cada 10000), pero aún así está claramente por debajo del 50% de todos los casos:
N=10000 # number of trials
T=100 # length of time series
coef=c()
for(i in 1:N){
set.seed(i)
x=rnorm(T) # generate T realizations of a standard normal variable
y=cumsum(x) # cumulative sum of x produces a random walk y
lm1=lm(y[-1]~-1+y[-T]) # regress y on its own first lag, without intercept
coef[i]=as.numeric(lm1$coef[1])
}
length(which(coef<1))/N # the proportion of estimated coefficients below 1