Lamentablemente, esta será una respuesta bastante insatisfactoria ...
En primer lugar, por lo general, para el cálculo de AIC, utilizará la estimación de probabilidad máxima de σ2lo cual sería parcial. Entonces eso se reduciría aσ2=RSSn y, en última instancia, el cálculo que haga se reduciría a 1+2dn. En segundo lugar, me referiría al artículo de Wikipedia sobre AIC, en particular en la sección de casos de equivalencia . Como puede ver, está claro que la mayoría de las derivaciones omiten una constanteC. Esta constante es irrelevante para fines de comparación de modelos, por lo que se omite. Es algo común ver derivaciones contradictorias de AIC debido exactamente a ese problema. Por ejemplo , el análisis estadístico multivariado aplicado de Johnson & Wichern , sexta edición, da a AIC como:nlog(RSSN)+2d(Capítulo 7.6), que claramente no equivale a la definición de James et al. Tu estas usando. Ninguno de los libros está equivocado per se . Solo personas que usan diferentes constantes. En el caso de James et al. Parece que el libro no alude a este punto. En otros libros, por ejemplo. El primer curso de Ravishanker y Dey en teoría de modelos lineales es aún más profundo a medida que los autores escriben:
AIC(p)=−2l(y;X,β^ML,σ^2ML)+2p=−Nlog(σ^2ML)/2−N/2+2p(7.5.10)
que curiosamente tampoco puede ser concurrentemente cierto. Como escriben el capítulo 2.2 de Burnham y Anderson (1998) : " En el caso especial de la estimación de mínimos cuadrados (LS) con errores distribuidos normalmente, y aparte de una constante aditiva arbitraria, AIC puede expresarse como una función simple de la suma residual de cuadrados . "; B&A sugiere la misma variante AIC que utiliza J&W. Lo que te confunde es esa constante particular (y el hecho de que no estabas usando la estimación de ML para los residuos). Al observar el Reconocimiento de patrones y el aprendizaje automático de M. Bishop (2006) , encuentro una definición aún más contradictoria como:
AIC=l(D|wML)−M(1.73)
lo cual es gracioso porque no solo omite el multiplicador del documento original, sino que también deja caer las señales para que pueda usar la selección basada en AIC como un problema de maximización ...
Yo recomendaría seguir con la antigua definición −2log(L)+2psi quieres hacer derivaciones teóricas. Este es el que Akaike afirma en su artículo original. Todas las otras fórmulas intermedias tienden a ser desordenadas y / o hacen algunas suposiciones implícitas. Si te sirve de consuelo, "no hiciste nada malo".