La prueba LR (razón de verosimilitud) en realidad está probando la hipótesis de que un subconjunto específico de los parámetros es igual a algunos valores preespecificados. En el caso de la selección del modelo, generalmente (pero no siempre) eso significa que algunos de los parámetros son iguales a cero. Si los modelos están anidados, los parámetros en el modelo más grande que no están en el modelo más pequeño son los que se están probando, con valores especificados implícitamente por su exclusión del modelo más pequeño. Si los modelos no están anidados, ya no está probando esto, porque AMBOS modelos tienen parámetros que no están en el otro modelo, por lo que la estadística de prueba LR no tiene el asintóticoχ2
AIC, por otro lado, no se usa para pruebas formales. Se utiliza para comparaciones informales de modelos con diferentes números de parámetros. El término de penalización en la expresión para AIC es lo que permite esta comparación. Pero no se hacen suposiciones sobre la forma funcional de la distribución asintótica de las diferencias entre el AIC de dos modelos no anidados al hacer la comparación del modelo, y la diferencia entre dos AIC no se trata como una estadística de prueba.
Agregaré que hay cierto desacuerdo sobre el uso de AIC con modelos no anidados, ya que la teoría se resuelve para modelos anidados. De ahí mi énfasis en "no ... formal" y "no ... prueba estadística". Lo uso para modelos no anidados, pero no de una manera rígida y rápida, más como una entrada importante, pero no la única, en el proceso de construcción del modelo.