¿El mejor enfoque para la selección del modelo bayesiano o validación cruzada?

Cuando trato de seleccionar entre varios modelos o la cantidad de características a incluir, digamos predicción, puedo pensar en dos enfoques.

Divida los datos en conjuntos de entrenamiento y prueba. Mejor aún, use bootstrapping o k-fold cross-validation. Entrene en el conjunto de entrenamiento cada vez y calcule el error sobre el conjunto de prueba. Trazar error de prueba vs. número de parámetros. Por lo general, obtienes algo como esto:
Calcule la probabilidad del modelo integrando los valores de los parámetros. es decir, calcule , y grafique esto en función del número de parámetros. Entonces obtenemos algo como esto: $\int_\theta P(D|\theta)P(\theta)d \theta$

Entonces mis preguntas son:

¿Son adecuados estos enfoques para resolver este problema (decidir cuántos parámetros incluir en su modelo o seleccionar entre varios modelos)?
¿Son equivalentes? Probablemente no. ¿Darán el mismo modelo óptimo bajo ciertos supuestos o en la práctica?
Además de la diferencia filosófica habitual de especificar el conocimiento previo en modelos bayesianos, etc., ¿cuáles son los pros y los contras de cada enfoque? ¿Cuál elegirías?

Actualización: También encontré la pregunta relacionada sobre la comparación de AIC y BIC. Parece que mi método 1 es asintóticamente equivalente a AIC y el método 2 está asintóticamente relacionado con BIC. Pero también leí allí que BIC es equivalente a Leave-One-Out CV. Eso significaría que el mínimo de error de entrenamiento y el máximo de probabilidad bayesiana son equivalentes cuando LOO CV es equivalente a K-fold CV. Un artículo quizás muy interesante " Una teoría asintótica para la selección del modelo lineal " de Jun Shao se relaciona con estos temas.

— highBandWidth
fuente

Realmente no tengo una respuesta completa, pero mencionaré que normalmente no pensaría en usar ninguno de los métodos para "elegir la cantidad de características". En general, interpreto que el aprendizaje automático y las estadísticas bayesianas solo incluyen todas las características, ya que probablemente todas tengan un nivel de impacto mínimo. Sin embargo, creo que la cuestión de la complejidad relativa del modelo sigue siendo apropiada. También afirmaré que nunca he realizado la inferencia bayesiana a la que aludiste; simplemente parece demasiado complicado en la práctica en comparación con la simplicidad de k-fold o bootstrapping.

— Shea Parkes

Tenga en cuenta que el papel Shao funciona solo para modelos lineales; de hecho, solo su estructura simple hace que el número de características se pueda utilizar como medida de complejidad y, por lo tanto, potencia todos esos criterios de información.

AIC (¡ no BIC! ) Es asintóticamente equivalente a la validación cruzada de dejar uno afuera bajo suposiciones débiles (debido a Stone "Una equivalencia asintótica de elección del modelo por validación cruzada y el criterio de Akaike" (1977) ). La fuente en la pregunta a la que se refiere estaba equivocada y fue corregida por Rob Hyndman en un comentario. Pensé que podría ser una buena idea corregirlo aquí también, para dejar de difundir la idea equivocada.

— Richard Hardy

Respuestas:

¿Son adecuados estos enfoques para resolver este problema (decidir cuántos parámetros incluir en su modelo o seleccionar entre varios modelos)?

Cualquiera de los dos podría ser, sí. Si está interesado en obtener un modelo que prediga mejor, fuera de la lista de modelos que considera, el enfoque de división / validación cruzada puede hacerlo bien. Si está interesado en saber cuál de los modelos (en su lista de modelos putativos) es realmente el que genera sus datos, entonces el segundo enfoque (evaluar la probabilidad posterior de los modelos) es lo que desea.

¿Son equivalentes? Probablemente no. ¿Darán el mismo modelo óptimo bajo ciertos supuestos o en la práctica?

No, no son en general equivalentes. Por ejemplo, el uso de AIC (Un criterio de información, por Akaike) para elegir el 'mejor' modelo corresponde a la validación cruzada, aproximadamente. El uso de BIC (criterio de información bayesiano) corresponde al uso de las probabilidades posteriores, nuevamente aproximadamente. Estos no son el mismo criterio, por lo que uno debería esperar que conduzcan a diferentes opciones, en general. Se pueden dar las mismas respuestas - cada vez que el modelo que predice mejor también pasa a ser la verdad - pero en muchas situaciones el modelo que mejor se adapte es en realidad uno que overfits, que conduce a un desacuerdo entre los enfoques.

¿Están de acuerdo en la práctica? Depende de lo que implique su 'práctica'. Pruébalo en ambos sentidos y descúbrelo.

Además de la diferencia filosófica habitual de especificar el conocimiento previo en modelos bayesianos, etc., ¿cuáles son los pros y los contras de cada enfoque? ¿Cuál elegirías?

Por lo general, es mucho más fácil hacer los cálculos para la validación cruzada, en lugar de calcular las probabilidades posteriores
A menudo es difícil establecer un caso convincente de que el modelo "verdadero" se encuentra entre la lista de la que está eligiendo. Este es un problema para el uso de probabilidades posteriores, pero no para la validación cruzada
Ambos métodos tienden a involucrar el uso de constantes bastante arbitrarias; ¿Cuánto vale una unidad adicional de predicción, en términos de números de variables? ¿Cuánto le creemos a cada uno de los modelos, a priori ?
- Probablemente elegiría la validación cruzada. Pero antes de comprometerme, me gustaría saber mucho sobre por qué se estaba haciendo esta selección de modelo, es decir, para qué se iba a utilizar el modelo elegido. Ninguna forma de selección de modelo puede ser apropiada, por ejemplo, si se requiere inferencia causal.

— huésped
fuente

¡La optimización es la raíz de todo mal en las estadísticas! ; o)

Cada vez que intente seleccionar un modelo basado en un criterio que se evalúa en una muestra finita de datos, presentará el riesgo de sobreajustar el criterio de selección del modelo y terminará con un modelo peor de lo que comenzó. Tanto la validación cruzada como la probabilidad marginal son criterios de selección de modelo razonables, pero ambos dependen de una muestra finita de datos (como lo son AIC y BIC; la penalidad de complejidad puede ayudar, pero no resuelve este problema). He encontrado que esto es un problema sustancial en el aprendizaje automático, vea

GC Cawley y NLC Talbot, Ajuste excesivo en la selección del modelo y posterior sesgo de selección en la evaluación del rendimiento, Journal of Machine Learning Research, 2010. Research, vol. 11, págs. 2079-2107, julio de 2010. ( www )

Desde el punto de vista bayesiano, es mejor integrar todas las opciones y parámetros del modelo. Si no optimizas o eliges nada, entonces es más difícil ajustar demasiado. La desventaja es que terminas con integrales difíciles, que a menudo deben resolverse con MCMC. Si desea el mejor rendimiento predictivo, sugeriría un enfoque totalmente bayesiano; Si desea comprender los datos, a menudo es útil elegir el mejor modelo. Sin embargo, si vuelve a muestrear los datos y termina con un modelo diferente cada vez, significa que el procedimiento de ajuste es inestable y ninguno de los modelos es confiable para comprender los datos.

Tenga en cuenta que una diferencia importante entre la validación cruzada y la evidencia es que el valor de la probabilidad marginal supone que el modelo no está mal especificado (esencialmente la forma básica del modelo es apropiada) y puede dar resultados engañosos si lo es. La validación cruzada no hace tal suposición, lo que significa que puede ser un poco más robusta.

— Dikran Marsupial
fuente

La integración bayesiana es un enfoque fuerte. Pero siempre cuestione si la selección del modelo es incluso la forma correcta de hacerlo. ¿Cuál es la motivación? ¿Por qué no presentar un modelo completo que sea flexible y que simplemente se ajuste?

— Frank Harrell

@FrankHarrell muchos modelos flexibles incluyen términos de regularización y otros hiperparámetros, y ajustarlos también es la selección del modelo y está sujeto a los mismos problemas de ajuste excesivo del criterio de selección. La adaptación presenta un riesgo de sobreajuste, y eso se aplica a todos los niveles. Sin embargo, si conoce a priori sobre la estructura del modelo, entonces se debe utilizar ese conocimiento experto.

— Dikran Marsupial

Es mejor buscar un método que no requiera ajustes, pero esto no siempre es posible. Mi punto principal es que la especificación del modelo funciona mejor que la selección del modelo y no asuma que la selección de características es un objetivo noble.

— Frank Harrell

La selección de funciones de @FrankHarrell rara vez es útil. Se debe evitar la optimización siempre que sea posible, lo que implica hacer cualquier elección / ajuste del modelo basado en una muestra finita de datos (por supuesto, cuanto mayor es la muestra, menor es el riesgo).

— Dikran Marsupial