Cuando trato de seleccionar entre varios modelos o la cantidad de características a incluir, digamos predicción, puedo pensar en dos enfoques.
- Divida los datos en conjuntos de entrenamiento y prueba. Mejor aún, use bootstrapping o k-fold cross-validation. Entrene en el conjunto de entrenamiento cada vez y calcule el error sobre el conjunto de prueba. Trazar error de prueba vs. número de parámetros. Por lo general, obtienes algo como esto:
- Calcule la probabilidad del modelo integrando los valores de los parámetros. es decir, calcule , y grafique esto en función del número de parámetros. Entonces obtenemos algo como esto:
Entonces mis preguntas son:
- ¿Son adecuados estos enfoques para resolver este problema (decidir cuántos parámetros incluir en su modelo o seleccionar entre varios modelos)?
- ¿Son equivalentes? Probablemente no. ¿Darán el mismo modelo óptimo bajo ciertos supuestos o en la práctica?
- Además de la diferencia filosófica habitual de especificar el conocimiento previo en modelos bayesianos, etc., ¿cuáles son los pros y los contras de cada enfoque? ¿Cuál elegirías?
Actualización: También encontré la pregunta relacionada sobre la comparación de AIC y BIC. Parece que mi método 1 es asintóticamente equivalente a AIC y el método 2 está asintóticamente relacionado con BIC. Pero también leí allí que BIC es equivalente a Leave-One-Out CV. Eso significaría que el mínimo de error de entrenamiento y el máximo de probabilidad bayesiana son equivalentes cuando LOO CV es equivalente a K-fold CV. Un artículo quizás muy interesante " Una teoría asintótica para la selección del modelo lineal " de Jun Shao se relaciona con estos temas.