Fórmula AIC en Introducción al aprendizaje estadístico

9

Estoy un poco desconcertado por una fórmula presentada en "Introducción al aprendizaje estadístico" de Hastie. En el Capítulo 6, página 212 (sexta impresión, disponible aquí ), se indica que:

$AIC = \frac{RSS}{n\hat\sigma^2} + \frac{2d}{n}$

Para modelos lineales con ruido gaussiano, es el número de predictores y es la estimación de la varianza del error. Sin embargo, $d$ $\hat\sigma$

$\hat\sigma^2 = \frac{RSS}{(n-2)}$

Que se indica en el Capítulo 3, página 66.

Lo que implicaría:

$AIC = \frac{(n-2)}{n} + \frac{2d}{n}$

Lo que no puede ser correcto. ¿Alguien puede señalar lo que estoy haciendo incorrectamente?

regression machine-learning aic

— Sue Doh Nimh
fuente

A menos que me pierda algo, no creo que el libro pueda ser correcto.

— Glen_b: reinstala a Mónica el

3

Creo que estás confundiendo las dos sumas residuales de cuadrados que tienes. Tiene un RSS para estimar el en la fórmula, este RSS es en cierto sentido independiente del número de parámetros, . Este debe estimarse utilizando todas sus covariables, lo que le proporciona una unidad de error de referencia . Debe llamar al RSS en la fórmula de AIC : , lo que significa que corresponde al modelo con parámetros ( puede haber muchos modelos con parámetros ). Entonces, el RSS en la fórmula se calcula para un modelo específico, mientras que el RSS para $\hat{\sigma}^2$ $p$ $\hat{\sigma}^2$ $\text{RSS}_{p_i}$ $i$ $p$ $p$ $\hat{\sigma}^2$ es para el modelo completo.

Esto también se observa en la página anterior, donde se introduce para . $\hat{\sigma}^2$ $C_p$

Entonces, el RSS para la fórmula en AIC no es independiente de , se calcula para un modelo dado. Introducir a todo esto es solo tener una unidad de línea de base para el error, de modo que haya una comparación "justa" entre el número de parámetros y la reducción del error. Debe comparar el número de parámetros con algo que se escala con la magnitud del error. $p$ $\hat{\sigma}^2$

Si no escala el RSS por el error de la línea de base, puede ser que el RSS caiga mucho más que el número de variables introducidas y, por lo tanto, se vuelva más codicioso al agregar más variables. Si lo escala a alguna unidad, la comparación con el número de parámetros es independiente de la magnitud del error de la línea de base.

Esta no es la forma general de calcular AIC, pero esencialmente se reduce a algo similar a esto en los casos en que es posible obtener versiones más simples de la fórmula.

— Gumeo
fuente

¿Sería capaz de proporcionar alguna referencia donde pueda leer más sobre el razonamiento detrás de la estimación de la varianza del error en estos modelos con un conjunto total de predictores disponibles en comparación con el RSS de algún subconjunto? Veo cómo su respuesta responde a esta pregunta, pero no estoy seguro de por qué es legítimo hacerlo en primer lugar.

— Sue Doh Nimh

@SueDohNimh Estas diapositivas proporcionan un buen comienzo. Tenga en cuenta que la mejor estimación para es usar el modelo completo, introducido para . El AIC que tiene es aquel en el que se conoce , pero solo utiliza la mejor estimación que puede obtener. Estimando

σ^{2}

$\sigma^2$

C_{p}

$C_p$

σ^{2}

$\sigma^2$

σ^{2}

$\sigma^2$ Puede ser muy difícil. Esta discusión también es relevante. Esto también es relevante .

— Gumeo

2

También debería leer el artículo original de Akaike, creo que es la mejor fuente, tiene más de 15K citas a partir de ahora. Aquí está , deberías poder encontrarlo en algún lugar en línea o acceder a él desde una universidad.

— Gumeo

5

Lamentablemente, esta será una respuesta bastante insatisfactoria ...

En primer lugar, por lo general, para el cálculo de AIC, utilizará la estimación de probabilidad máxima de $\sigma^2$ lo cual sería parcial. Entonces eso se reduciría a $\sigma^2 = \frac{RSS}{n}$ y, en última instancia, el cálculo que haga se reduciría a $1+2\frac{d}{n}$ . En segundo lugar, me referiría al artículo de Wikipedia sobre AIC, en particular en la sección de casos de equivalencia . Como puede ver, está claro que la mayoría de las derivaciones omiten una constante $C$ . Esta constante es irrelevante para fines de comparación de modelos, por lo que se omite. Es algo común ver derivaciones contradictorias de AIC debido exactamente a ese problema. Por ejemplo , el análisis estadístico multivariado aplicado de Johnson & Wichern , sexta edición, da a AIC como: $n \log(\frac{RSS}{N}) + 2d$ (Capítulo 7.6), que claramente no equivale a la definición de James et al. Tu estas usando. Ninguno de los libros está equivocado per se . Solo personas que usan diferentes constantes. En el caso de James et al. Parece que el libro no alude a este punto. En otros libros, por ejemplo. El primer curso de Ravishanker y Dey en teoría de modelos lineales es aún más profundo a medida que los autores escriben:

\begin{aligned} A I C (p) & = - 2 l (y; X, {\hat{β}}_{M L}, {\hat{σ}}_{M L}^{2}) + 2 p \\ = - N \log ({\hat{σ}}_{M L}^{2}) / 2 - N / 2 + 2 p (7.5.10) \end{aligned}

$\begin{align} AIC(p) &= -2l(y; X, \hat{\beta}_{ML}, \hat{\sigma}_{ML}^2) + 2p \\ &= -N \log(\hat{\sigma}_{ML}^2)/2 - N/2 + 2p \qquad (7.5.10) \end{align}$

que curiosamente tampoco puede ser concurrentemente cierto. Como escriben el capítulo 2.2 de Burnham y Anderson (1998) : " En el caso especial de la estimación de mínimos cuadrados (LS) con errores distribuidos normalmente, y aparte de una constante aditiva arbitraria, AIC puede expresarse como una función simple de la suma residual de cuadrados . "; B&A sugiere la misma variante AIC que utiliza J&W. Lo que te confunde es esa constante particular (y el hecho de que no estabas usando la estimación de ML para los residuos). Al observar el Reconocimiento de patrones y el aprendizaje automático de M. Bishop (2006) , encuentro una definición aún más contradictoria como:

\begin{aligned} A I C & = l (D | w_{M L}) - M (1.73) \end{aligned}

$\begin{align} AIC &= l(D|w_{ML}) - M \qquad (1.73) \end{align}$

lo cual es gracioso porque no solo omite el multiplicador del documento original, sino que también deja caer las señales para que pueda usar la selección basada en AIC como un problema de maximización ...

Yo recomendaría seguir con la antigua definición $−2\log(L)+2p$ si quieres hacer derivaciones teóricas. Este es el que Akaike afirma en su artículo original. Todas las otras fórmulas intermedias tienden a ser desordenadas y / o hacen algunas suposiciones implícitas. Si te sirve de consuelo, "no hiciste nada malo".

— usεr11852
fuente

Ah! Bueno, eso sí que es un poco anticlimático, pero gracias. Sin embargo, por implicación, el AIC de Hastie aumenta linealmente en d y no es una función de la suma de los residuos al cuadrado. Las otras definiciones que proporcionó al menos varían con los errores del conjunto de entrenamiento, mientras que el AIC de Hastie implicaría que el modelo óptimo sería uno con 0 predictores. ¿Hay alguna manera de casar eso?

— Sue Doh Nimh

1

Lo siento, no sé por qué dan esa fórmula. Por lo general hay un

\log

$\log$ involucrado en alguna parte. En el texto no trabajan mucho alrededor de AIC y se centran en Mallow's

C_{p}

$C_p$ así que no me sorprendería si hicieran algunos supuestos simplificadores. En general, ese capítulo parece usar convenciones un poco extrañas. Casarlo parece equivaler a dejar caer los logaritmos más o menos. También parecen favorecer un

\frac{1}{N}

$\frac{1}{N}$ multiplicador; Sospecho que esto se hace para hacer algo más similar a

C_{p}

$C_p$ . Por cierto, es el libro de James . Hastie es un académico increíble pero es el tercer autor.

— usεr11852

Llegué a las mismas conclusiones que usted, leyendo el famoso libro de Hastie / Tibshirani "Los elementos del aprendizaje estadístico" (p. 230-233), donde las definiciones de AIC / BIC son muy similares a las definiciones dadas en "Introducción a la estadística aprendiendo en R ". Entonces, Hastie es un académico increíble, pero no es tan bueno para definir AIC / BIC =).

— Rodvi