Autocorrelaciones
La correlación entre dos variables se define como:y1,y2
ρ=E[(y1−μ1)(y2−μ2)]σ1σ2=Cov(y1,y2)σ1σ2,
donde E es el operador esperado, μ1 y μ2 son las medias respectivamente para y1 e y2 y σ1,σ2 son sus desviaciones estándar.
En el contexto de una sola variable, es decir, autocorrelación , y1 es la serie original e y2 es una versión retrasada de la misma. Tras la definición anterior, autocorrelaciones de muestra de orden k=0,1,2,...se puede obtener calculando la siguiente expresión con la observada serie yt , t=1,2,...,n :
ρ(k)=1n−k∑nt=k+1(yt−y¯)(yt−k−y¯)1n∑nt=1(yt−y¯)2−−−−−−−−−−−−−√1n−k∑nt=k+1(yt−k−y¯)2−−−−−−−−−−−−−−−−−−√,
donde y¯ es la media muestral de los datos.
Autocorrelaciones parciales
Las autocorrelaciones parciales miden la dependencia lineal de una variable después de eliminar el efecto de otras variables que afectan a ambas variables. Por ejemplo, la autocorrelación parcial de orden mide el efecto (dependencia lineal) de yt−2 en yt después de eliminar el efecto de yt−1 en yt y yt−2 .
Cada autocorrelación parcial podría obtenerse como una serie de regresiones de la forma:
y~t=ϕ21y~t−1+ϕ22y~t−2+et,
donde y~t es la serie original menos la media muestral, yt−y¯ . La estimación de ϕ22 dará el valor de la autocorrelación parcial de orden 2. Extendiendo la regresión con k rezagos adicionales, la estimación del último término dará la autocorrelación parcial de orden k .
Una forma alternativa de calcular las autocorrelaciones parciales de la muestra es resolviendo el siguiente sistema para cada orden k :
⎛⎝⎜⎜⎜⎜ρ(0)ρ(1)⋮ρ(k−1)ρ(1)ρ(0)⋮ρ(k−2)⋯⋯⋮⋯ρ(k−1)ρ(k−2)⋮ρ(0)⎞⎠⎟⎟⎟⎟⎛⎝⎜⎜⎜⎜ϕk1ϕk2⋮ϕkk⎞⎠⎟⎟⎟⎟=⎛⎝⎜⎜⎜⎜ρ(1)ρ(2)⋮ρ(k)⎞⎠⎟⎟⎟⎟,
donde ρ(⋅) son las autocorrelaciones de muestra. Este mapeo entre las autocorrelaciones de muestra y las autocorrelaciones parciales se conoce como la
recursión de Durbin-Levinson . Este enfoque es relativamente fácil de implementar para ilustración. Por ejemplo, en el software R, podemos obtener la autocorrelación parcial de orden 5 de la siguiente manera:
# sample data
x <- diff(AirPassengers)
# autocorrelations
sacf <- acf(x, lag.max = 10, plot = FALSE)$acf[,,1]
# solve the system of equations
res1 <- solve(toeplitz(sacf[1:5]), sacf[2:6])
res1
# [1] 0.29992688 -0.18784728 -0.08468517 -0.22463189 0.01008379
# benchmark result
res2 <- pacf(x, lag.max = 5, plot = FALSE)$acf[,,1]
res2
# [1] 0.30285526 -0.21344644 -0.16044680 -0.22163003 0.01008379
all.equal(res1[5], res2[5])
# [1] TRUE
Bandas de confianza
Las bandas de confianza se pueden calcular como el valor de las autocorrelaciones de la muestra ±z1−α/2n√ , dondez1−α/2es el cuantil1−α/2en la distribución gaussiana, por ejemplo, 1.96 para bandas de confianza del 95%.
A veces se utilizan bandas de confianza que aumentan a medida que aumenta el orden. En estos casos, las bandas se pueden definir como ±z1−α/21n(1+2∑ki=1ρ(i)2)−−−−−−−−−−−−−−−−√.