Se utilizan AIC y BIC, por ejemplo, en regresión gradual. En realidad, son parte de una clase más amplia de "heurística", que también se utilizan. Por ejemplo, el DIC (Criterio de información de desviación) se usa a menudo en la selección del modelo bayesiano.
Sin embargo, son básicamente "heurísticas". Si bien se puede demostrar que tanto el AIC como el BIC convergen asintóticamente hacia los enfoques de validación cruzada (creo que el AIC va hacia el CV de omisión y el BIC hacia algún otro enfoque, pero no estoy seguro), son conocidos por infra penalizar y penalizar en exceso respectivamente. Es decir, al usar AIC, a menudo obtendrá un modelo, que es más complicado de lo que debería ser, mientras que con BIC a menudo obtiene un modelo que es demasiado simplista.
Como ambos están relacionados con el CV, el CV suele ser una mejor opción, que no sufre estos problemas.
Luego, finalmente está el problema del número de parámetros que se requieren para BIC y AIC. Con los aproximadores de funciones generales (p. Ej., KNN) en las entradas de valor real, es posible "ocultar" parámetros, es decir, construir un número real que contenga la misma información que dos números reales (piense, por ejemplo, en intersectar los dígitos). En ese caso, ¿cuál es el número real de parámetros? Por otro lado, con modelos más complicados, puede tener restricciones en sus parámetros, digamos que solo puede ajustar parámetros tales que θ1>θ2 (ver, por ejemplo, aquí ). O puede que no sea identificable, en cuyo caso los valores múltiples de los parámetros realmente dan el mismo modelo. En todos estos casos, el simple conteo de parámetros no proporciona una estimación adecuada.
Dado que muchos algoritmos contemporáneos de aprendizaje automático muestran estas propiedades (es decir, aproximación universal, número incierto de parámetros, no identificabilidad), AIC y BIC son menos útiles para este modelo, de lo que pueden parecer a primera vista.
EDITAR :
Algunos puntos más que podrían aclararse:
- Parece que me equivoqué al considerar el mapeo entrelazando dígitos como una biyección entre R→RN (ver aquí ). Sin embargo, los detalles de por qué esto no es una biyección son un poco difíciles de entender. Sin embargo, en realidad no necesitamos una biyección para que esta idea funcione (una sobreposición es suficiente).
- Según la prueba de Cantor (1877) debe haber una biyección entre R→RN . Aunque esta biyección no puede definirse explícitamente, su existencia puede demostrarse (pero esto requiere el axioma de elección no comprobado). Esta biyección todavía se puede usar en un modelo teórico (puede que no sea posible implementar este modelo en una computadora), para desempaquetar un solo parámetro en un número arbitrario de parámetros.
- En realidad, no necesitamos que el mapeo entre R→RN sea una biyección. Cualquier función surjective R→RN es suficiente para desempaquetar múltiples parámetros de uno solo. Se puede demostrar que tales sobrejeturas existen como límites para una secuencia de otras funciones (llamadas curvas de relleno de espacio , por ejemplo, curva de Peano ).
- Debido a que ni la prueba de Cantor es constructiva (simplemente demuestra la existencia de la biyección sin dar un ejemplo), ni las curvas que llenan el espacio (porque solo existen como límites de objetos constructivos y, por lo tanto, no son constructivas), el argumento I hecho es solo una prueba teórica. En teoría, podríamos seguir agregando parámetros a un modelo para reducir el BIC por debajo de cualquier valor deseado (en el conjunto de entrenamiento). Sin embargo, en una implementación de modelo real, tenemos que aproximar la curva de relleno de espacio, por lo que el error de aproximación puede prohibirnos que lo hagamos (en realidad no lo he probado).
- Como todo esto requiere el axioma de elección, la prueba se vuelve inválida si no acepta este axioma (aunque la mayoría de los matemáticos lo hacen). Eso significa que, en matemáticas constructivas, esto puede no ser posible, pero no sé qué papel juegan las matemáticas constructivas para las estadísticas.
- NRN+1RNRNRN. Sin embargo, esto es solo un argumento informal, no conozco ningún tratamiento formal de esta noción de "complejidad".