¿Es cierto que los bayesianos no necesitan conjuntos de prueba?

Recientemente vi esta charla de Eric J. Ma y revisé su entrada de blog , donde cita a Radford Neal, que los modelos bayesianos no se sobreajustan (pero pueden sobreajustar ) y cuando los usamos , no necesitamos conjuntos de prueba para validarlos (para Me parece que las citas hablan más bien sobre el uso del conjunto de validación para ajustar los parámetros). Honestamente, los argumentos no me convencen y no tengo acceso al libro, entonces, ¿podría dar un argumento más detallado y riguroso a favor o en contra de dicha declaración?

Por cierto, mientras tanto, Eric Ma me ha señalado esta discusión sobre el mismo tema.

— Tim
fuente

Un gran agujero en este argumento con respecto a esa charla: si estás haciendo MCMC, si no exploras completamente la parte posterior, tu inferencia es totalmente inválida. Si está haciendo inferencia en una red neuronal bayesiana, es casi seguro que no ha explorado porciones muy grandes de la parte posterior utilizando MCMC. Por lo tanto, es mejor que divida sus datos para verificar su inferencia.

— Cliff AB

Una cosa a tener en cuenta es ¿qué estamos evaluando o validando? Es posible que no usemos toda la información que tenemos (ya sea previa o probable). comprobar el ajuste del modelo puede ayudar a responder esta pregunta.

— probabilidadislogica

Si utilizamos "el único modelo verdadero" y "antecedentes verdaderos" que reflejan cierta información previa capturada adecuadamente, entonces, hasta donde yo sé, un bayesiano realmente no tiene un problema de sobreajuste y la distribución predictiva posterior dada muy poca información será adecuadamente incierta . Sin embargo, si utilizamos algún tipo de modelo pragmáticamente elegido (es decir, hemos decidido que, por ejemplo, la tasa de riesgo es constante en el tiempo y un modelo exponencial es apropiado o, por ejemplo, que alguna covariable no está en el modelo = punto anterior del coeficiente cero) con alguna valores predeterminados no informativos o de regularización, entonces realmente no sabemos si esto todavía se aplica. En ese caso, la elección de (hiper) anteriores tiene cierta arbitrariedad que puede o no dar lugar a buenas predicciones fuera de la muestra.

Por lo tanto, es muy razonable hacer la pregunta de si la elección del hiperparámetro (= parámetros de los hiperpriors) en combinación con la probabilidad elegida funcionará bien. De hecho, podría decidir fácilmente que es una buena idea ajustar sus hiperparámetros para obtener el rendimiento de predicción deseado. Desde esa perspectiva, un conjunto de validación (o validación cruzada) para ajustar los hiperparámetros y el conjunto de prueba para confirmar el rendimiento tiene mucho sentido.

Creo que esto está estrechamente relacionado con una serie de discusiones de Andrew Gelman en su blog (ver, por ejemplo, la entrada 1 del blog , la entrada 2 del blog , la entrada 3 del blog en LOO para Stan y las discusiones sobre las comprobaciones predictivas posteriores), donde discute sus preocupaciones sobre el (en cierto sentido correcto) afirma que un Bayesiano no debe verificar si su modelo tiene sentido y sobre la evaluación práctica del modelo Bayesiano.

Por supuesto, a menudo somos los más interesados en usar métodos bayesianos en entornos, donde hay poca información previa y queremos usar antecedentes un tanto informativos. En ese punto, puede ser algo complicado tener suficientes datos para llegar a cualquier lugar con validación y evaluación en un conjunto de pruebas.

— Björn
fuente

Así que respondí la pregunta sobre sobreajuste a la que hace referencia y vi el video y leí la publicación del blog. Radford Neal no dice que los modelos bayesianos no se sobreajusten. Recordemos que el sobreajuste es el fenómeno del ruido que se trata como señal y se incorpora a la estimación del parámetro. Esa no es la única fuente de error de selección de modelo. Sin embargo, la discusión de Neal es más amplia al aventurarse en la idea de un tamaño de muestra pequeño que él se aventuró en la discusión del sobreajuste.

Permítanme revisar parcialmente mi publicación anterior de que los modelos bayesianos pueden ajustarse a todos los modelos bayesianos, pero hacerlo de una manera que mejore la predicción. Nuevamente, volviendo a la definición de señal confusa con ruido, la incertidumbre en los métodos bayesianos, la distribución posterior, es la cuantificación de esa incertidumbre en cuanto a qué es señal y qué es ruido. Al hacerlo, los métodos bayesianos están incorporando el ruido en las estimaciones de la señal, ya que todo el posterior se usa en inferencia y predicción. El sobreajuste y otras fuentes de error de clasificación del modelo es un tipo diferente de problema en los métodos bayesianos.

Para simplificar, adoptemos la estructura de la charla de Ma y centrémonos en la regresión lineal y evitemos la discusión de aprendizaje profundo porque, como él señala, los métodos alternativos que menciona son solo composiciones de funciones y existe un vínculo directo entre la lógica de la linealidad. regresión y aprendizaje profundo.

y = β_{0 0} + β_{1} X_{1} + β_{2} X_{2} + β_{3} X_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

N

$N$

n_{1}, n_{2}

$n_1,n_2$

n_{1}

$n_1$

n_{2}

$n_2$

$m_1\dots{_8}$

y = β_{0 0} + β_{1} X_{1} + β_{2} X_{2} + β_{3} X_{3},

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3,$

y = β_{0 0},

$y=\beta_0,$

y = β_{0 0} + β_{1} X_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0 0} + β_{2} X_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0 0} + β_{3} X_{3},

$y=\beta_0+\beta_3x_3,$

y = β_{0 0} + β_{1} X_{1} + β_{2} X_{2},

$y=\beta_0+\beta_1x_1+\beta_2x_2,$

y = β_{0 0} + β_{1} X_{1} + β_{3} X_{3},

$y=\beta_0+\beta_1x_1+\beta_3x_3,$

y = β_{0 0} + β_{2} X_{2} + β_{3} X_{3},

$y=\beta_0+\beta_2x_2+\beta_3x_3,$

y = β_{0 0} + β_{1} X_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0 0} + β_{2} X_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0 0} + β_{3} X_{3} .

$y=\beta_0+\beta_3x_3.$

$n_1,$

Para dar un ejemplo del mundo real, probé 78 modelos de bancarrota. De los 78 modelos, la probabilidad posterior combinada de 76 de ellos era aproximadamente una diezmilésima del uno por ciento. Los otros dos modelos fueron aproximadamente 54 por ciento y 46 por ciento, respectivamente. Afortunadamente, tampoco compartieron ninguna variable. Eso me permitió seleccionar ambos modelos e ignorar los otros 76. Cuando tuve todos los puntos de datos para ambos, promedié sus predicciones basadas en las probabilidades posteriores de los dos modelos, usando solo un modelo cuando me faltaban puntos de datos que excluían otro. Si bien tenía un conjunto de entrenamiento y un conjunto de validación, no fue por la misma razón que un Frequentist los tendría. Además, al final de cada día durante dos ciclos comerciales, actualicé mis posteriores con los datos de cada día. Eso significaba que mi modelo al final del conjunto de validación no era el modelo al final del conjunto de entrenamiento. Los modelos bayesianos no dejan de aprender, mientras que los modelos frequentistas sí.

y = β_{0 0} + β_{1} X_{1} + β_{2} X_{2} + β_{3} X_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

y = β_{0 0} + β_{1} X_{1} + β_{3} X_{3} .

$y=\beta_0+\beta_1x_1+\beta_3x_3.$

$n_2^i$

Los modelos son parámetros en el pensamiento bayesiano y, como tales, son aleatorios o, si lo prefiere, inciertos. Esa incertidumbre no termina durante el proceso de validación. Se actualiza continuamente.

Debido a las diferencias entre los métodos bayesianos y frecuentes, hay otros tipos de casos que también deben considerarse. El primero proviene de la inferencia de parámetros, el segundo de las predicciones formales. No son lo mismo en los métodos bayesianos. Los métodos bayesianos separan formalmente la inferencia y la toma de decisiones. También separan la estimación y predicción de parámetros.

$\hat{\sigma^2}<k$

$k$ $n_2$ $n_1$

$n_1$ $n_1$ $n_2$ $n_2$

$n_1$ $\Pr(\tilde{x}=k|\mathbf{X})$ $\tilde{x}$ $\mathbf{X}$ $\theta?$ Aunque existen sistemas de predicción frecuente, la mayoría de las personas solo tratan las estimaciones puntuales como los parámetros verdaderos y calculan los residuos. Los métodos bayesianos calificarían cada predicción contra la densidad pronosticada en lugar de solo un punto. Estas predicciones no dependen de los parámetros que son diferentes de los métodos puntuales utilizados en soluciones frequentistas.

$n_1+n_2>n_1$

Si no hay información previa importante y si se utilizan densidades predictivas frecuentas en lugar de estimaciones puntuales, para una muestra fija los resultados de los métodos bayesiano y frecuenta serán idénticos si se elige un solo modelo. Si hay información previa, entonces el método bayesiano tenderá a generar predicciones más precisas. Esta diferencia puede ser muy grande en la práctica. Además, si hay un promedio del modelo, es muy probable que el método bayesiano sea más robusto. Si usa la selección de modelo y congela las predicciones bayesianas, entonces no hay diferencia en usar un modelo Frequentista usando predicciones Frequentistas.

Utilicé un conjunto de prueba y validación porque mis datos no eran intercambiables. Como resultado, necesitaba resolver dos problemas. El primero es similar al quemado en los métodos MCMC. Necesitaba un buen conjunto de estimaciones de parámetros para comenzar mi secuencia de prueba, por lo que utilicé cincuenta años de datos anteriores para obtener una buena densidad previa para comenzar mi prueba de validación. El segundo problema era que necesitaba algún tipo de período estandarizado para realizar la prueba para que la prueba no fuera cuestionada. Usé los dos ciclos comerciales anteriores según la fecha del NBER.

— Dave Harris
fuente

Pero luego, digamos que calculó un MAP para el modelo de regresión lineal con antecedentes "no informativos". Esto sería equivalente a obtener la estimación de máxima verosimilitud para el modelo, por lo que ML tampoco necesita un conjunto de pruebas, suponiendo que sea intercambiable.

— Tim

"El sobreajuste es el fenómeno del ruido que se trata como señal y se incorpora a la estimación del parámetro" Creo que esta definición es específica para los modelos de ruido aditivo. De lo contrario, el sobreajuste frente a la falta de ajuste no está tan bien definido.

— Cagdas Ozgenc

@CagdasOzgenc gracias. ¿Tienes una edición sugerida?

— Dave Harris

@Tim Nunca mencioné el estimador MAP. Si reduce el problema al estimador MAP, entonces entrega la solidez. El estimador MAP es el punto que minimiza una función de costo sobre una densidad. Esto puede ser problemático para las proyecciones si la densidad carece de una estadística suficiente. El estimador MAP, intrínsecamente, perdería información. Si estaba utilizando el estimador MAP, que no está en la pregunta original y claramente no forma parte de la presentación de Ma, entonces crea un conjunto diferente de problemas para usted.

— Dave Harris

@Tim El estimador MAP proviene de la teoría de decisión bayesiana y es una superposición sobre la estimación e inferencia bayesiana. El mapa es conveniente. Hay que pagar un precio al elegir la conveniencia. A menos que la función de costo de todo o nada sea su verdadera función de costo, está entregando información y precisión. También terminas problemas metodológicos diferentes a los propuestos en la presentación de Ma.

— Dave Harris