Requisitos previos para la comparación del modelo AIC

¿Cuáles son exactamente los requisitos previos que deben cumplirse para que funcione la comparación del modelo AIC?

Acabo de responder esta pregunta cuando hice una comparación como esta:

> uu0 = lm(log(usili) ~ rok)
> uu1 = lm(usili ~ rok)
> AIC(uu0)
[1] 3192.14
> AIC(uu1)
[1] 14277.29

De esta manera justifiqué la logtransformación de la variable usili. Pero no sé si puedo comparar modelos AIC cuando, por ejemplo, la variable dependiente es diferente.

La respuesta ideal incluiría la lista de requisitos previos (supuestos matemáticos).

— Curioso
fuente

No puede comparar los dos modelos, ya que no modelan la misma variable (como se reconoce correctamente). Sin embargo, AIC debería funcionar al comparar modelos anidados y no anidados.

Solo un recordatorio antes de continuar: un log-verosimilitud gaussiano viene dado por

\log (L (θ)) = - \frac{| D |}{2} \log (2 π) - \frac{1}{2} \log (| K |) - \frac{1}{2} (x - μ)^{T} K^{- 1} (x - μ),

$\log(L(\theta)) =-\frac{|D|}{2}\log(2\pi) -\frac{1}{2} \log(|K|) -\frac{1}{2}(x-\mu)^T K^{-1} (x-\mu),$

es la estructura de covarianza de su modelo,el número de puntos en sus conjuntos de datos, la respuesta media su variable dependiente. $K$ $|D|$ $\mu$ $x$

Más específicamente, se calcula que AIC es igual a , donde es el número de efectos fijos en su modelo y su función de probabilidad [1]. Prácticamente compara el equilibrio entre la varianza ( ) y el sesgo ( ) en sus supuestos de modelado. Como tal, en su caso, compararía dos estructuras de probabilidad de registro diferentes cuando se trata del término de sesgo. Esto se debe a que cuando calcula su probabilidad de registro prácticamente observa dos términos: un término de ajuste, denotado por $2k - 2 \log(L)$ $k$ $L$ $2k$ $2\log(L)$ , y un término de penalización de complejidad, denotado por $-\frac{1}{2}(x-\mu)^T K^{-1} (x-\mu)$ . Por lo tanto, verá que su término de ajuste es completamente diferente entre los dos modelos; en el primer caso, compara los residuos de los datos sin procesar y en el otro caso los residuos de los datos registrados. $-\frac{1}{2} \log(|K|)$

Aparte de Wikipedia, AIC también se define para equiparar: [3]; Esta forma hace aún más obvio por qué los diferentes modelos con diferentes variables dependientes no son comparables. El RSS es el caso dos es simplemente incomparable entre los dos. $|D| \log\left(\frac{RSS}{|D|}\right) + 2k$

El artículo original de Akaike [4] es bastante difícil de entender (creo). Se basa en la divergencia KL (la diferencia entre dos distribuciones más o menos hablando) y funciona para demostrar cómo puede aproximar la distribución verdadera desconocida de sus datos y compararlos con la distribución de los datos que asume su modelo. Es por eso que "un puntaje AIC más pequeño es mejor" ; está más cerca de la distribución verdadera aproximada de sus datos.

Entonces, para reunir todo, las cosas obvias para recordar cuando se usa AIC son tres [2,5]:

No puede usarlo para comparar modelos de diferentes conjuntos de datos.
Debe usar las mismas variables de respuesta para todos los modelos candidatos.
Deberías tener , porque de lo contrario no obtiene una buena consistencia asintótica. $|D| >> k$

Lamento comunicarle las malas noticias, pero usar AIC para mostrar que está eligiendo una variable dependiente sobre otra no es algo estadísticamente sólido. Verifique la distribución de sus residuos en ambos modelos, si el caso de datos registrados tiene residuos distribuidos normalmente y el caso de datos sin procesar no tiene, tiene toda la justificación que pueda necesitar. También es posible que desee verificar si sus datos sin procesar corresponden a un registro lognormal, que también podría ser una justificación suficiente.

Para suposiciones matemáticas estrictas, el juego es la divergencia KL y la teoría de la información ...

Ah, y algunas referencias:

http://en.wikipedia.org/wiki/Akaike_information_criterion
Criterio de información de Akaike, Shuhua Hu, (Presentación p.17-18)
Análisis estadístico multivariado aplicado, Johnson & Wichern, 6ª ed. (pág. 386-387)
Una nueva mirada a la identificación del modelo estadístico, H. Akaike, IEEE Transactions on Automatic Control 19 (6): 716–723 (1974)
Tutorial de selección de modelos # 1: Criterio de información de Akaike, D. Schmidt y E. Makalic, (Presentación p.39)

— usεr11852 dice Reinstate Monic
fuente

¡Gracias! No entendí las matemáticas, pero entendí el núcleo del mensaje. Sin embargo, ¿puede enumerar todos los requisitos previos necesarios para la comparación del modelo AIC? Solo para asegurarme de que no cometeré otro error la próxima vez. Iré a revisarlos uno por uno.

— Curioso

| D |

$|D|$

p

$p$

L (θ)

$L(\theta)$

θ

$\theta$

p (x | θ)

$p(x|\theta)$

— usεr11852 dice Reinstate Monic

¡Gracias por agregar una lista de esos 3 supuestos a la respuesta! Eso es lo que necesitaba.

— Curioso

Mirando nuevamente su respuesta: su punto 1. "No puede usarlo para comparar modelos de diferentes conjuntos de datos" . ¿Qué quiere decir con "conjunto de datos"? ¿Qué pasa si cambio el conjunto de variables dependientes? ¿Supongo que en ese caso AIC debería seguir siendo comparable? ¿Pueden actualizar su respuesta para aclarar esto?

— Curioso

R S S

$RSS$

μ

$\mu$

x

$x$

uu0 $\prod_i y_i^{-1}$ $2\sum_i\log (y_i)$ uu0AIC (uu0)+2*sum (log (usili))AIC (uu1)

— probabilidadislogica
fuente

No entiendo lo que sigue con su intento de "corregir" la AIC de alguna manera y qué obtuvo realmente (cómo interpretar su resultado). De todos modos, no profundice en esto, no importa porque mi pregunta era sobre algo completamente diferente: ¿cuáles son los requisitos previos generales para que el AIC (real, sin corregir) sea sensiblemente comparable. No se concentre en este ejemplo en particular, es solo un ejemplo de lo general.

— Curioso

- 2 \log (p (y | θ))

$-2\log (p (y|\theta))$

x = g (y)

$x=g (y)$

x = l o g (y)

$x=log (y)$ AIC()

— probabilidadislogico

@probabilityislogic: ¿Tiene alguna referencia académica para su sugerencia (AIC (uu0) + 2 * sum (log (usili))) para poder citarlos en escritos académicos? Gracias.

— KuJ

Este extracto de Akaike 1978 proporciona una cita en apoyo de la solución de @probabilityislogic.

Akaike, H. 1978. Sobre la probabilidad de un modelo de serie temporal. Revista de la Real Sociedad Estadística. Serie D (El Estadístico) 27: 217-235.

— bjd
fuente

lo siento, no entiendo, ¿qué es la "transformación de una variable" y cómo se relaciona con mi pregunta? Por favor explique, gracias

— Curioso