Así que respondí la pregunta sobre sobreajuste a la que hace referencia y vi el video y leí la publicación del blog. Radford Neal no dice que los modelos bayesianos no se sobreajusten. Recordemos que el sobreajuste es el fenómeno del ruido que se trata como señal y se incorpora a la estimación del parámetro. Esa no es la única fuente de error de selección de modelo. Sin embargo, la discusión de Neal es más amplia al aventurarse en la idea de un tamaño de muestra pequeño que él se aventuró en la discusión del sobreajuste.
Permítanme revisar parcialmente mi publicación anterior de que los modelos bayesianos pueden ajustarse a todos los modelos bayesianos, pero hacerlo de una manera que mejore la predicción. Nuevamente, volviendo a la definición de señal confusa con ruido, la incertidumbre en los métodos bayesianos, la distribución posterior, es la cuantificación de esa incertidumbre en cuanto a qué es señal y qué es ruido. Al hacerlo, los métodos bayesianos están incorporando el ruido en las estimaciones de la señal, ya que todo el posterior se usa en inferencia y predicción. El sobreajuste y otras fuentes de error de clasificación del modelo es un tipo diferente de problema en los métodos bayesianos.
Para simplificar, adoptemos la estructura de la charla de Ma y centrémonos en la regresión lineal y evitemos la discusión de aprendizaje profundo porque, como él señala, los métodos alternativos que menciona son solo composiciones de funciones y existe un vínculo directo entre la lógica de la linealidad. regresión y aprendizaje profundo.
y= β0 0+ β1X1+ β2X2+ β3X3.
nortenorte1, n2norte1norte2
metro1...8
y= β0 0+ β1X1+ β2X2+ β3X3,
y= β0 0,
y= β0 0+ β1X1,
y= β0 0+ β2X2,
y= β0 0+ β3X3,
y= β0 0+ β1X1+ β2X2,
y= β0 0+ β1X1+ β3X3,
y= β0 0+ β2X2+ β3X3,
y= β0 0+ β1X1,
y= β0 0+ β2X2,
y= β0 0+ β3X3.
norte1,
Para dar un ejemplo del mundo real, probé 78 modelos de bancarrota. De los 78 modelos, la probabilidad posterior combinada de 76 de ellos era aproximadamente una diezmilésima del uno por ciento. Los otros dos modelos fueron aproximadamente 54 por ciento y 46 por ciento, respectivamente. Afortunadamente, tampoco compartieron ninguna variable. Eso me permitió seleccionar ambos modelos e ignorar los otros 76. Cuando tuve todos los puntos de datos para ambos, promedié sus predicciones basadas en las probabilidades posteriores de los dos modelos, usando solo un modelo cuando me faltaban puntos de datos que excluían otro. Si bien tenía un conjunto de entrenamiento y un conjunto de validación, no fue por la misma razón que un Frequentist los tendría. Además, al final de cada día durante dos ciclos comerciales, actualicé mis posteriores con los datos de cada día. Eso significaba que mi modelo al final del conjunto de validación no era el modelo al final del conjunto de entrenamiento. Los modelos bayesianos no dejan de aprender, mientras que los modelos frequentistas sí.
y= β0 0+ β1X1+ β2X2+ β3X3.
y= β0 0+ β1X1+ β3X3.
norteyo2
Los modelos son parámetros en el pensamiento bayesiano y, como tales, son aleatorios o, si lo prefiere, inciertos. Esa incertidumbre no termina durante el proceso de validación. Se actualiza continuamente.
Debido a las diferencias entre los métodos bayesianos y frecuentes, hay otros tipos de casos que también deben considerarse. El primero proviene de la inferencia de parámetros, el segundo de las predicciones formales. No son lo mismo en los métodos bayesianos. Los métodos bayesianos separan formalmente la inferencia y la toma de decisiones. También separan la estimación y predicción de parámetros.
σ2^< k
knorte2norte1
norte1norte1norte2norte2
norte1Pr ( x~= k | X )X~Xθ ? Aunque existen sistemas de predicción frecuente, la mayoría de las personas solo tratan las estimaciones puntuales como los parámetros verdaderos y calculan los residuos. Los métodos bayesianos calificarían cada predicción contra la densidad pronosticada en lugar de solo un punto. Estas predicciones no dependen de los parámetros que son diferentes de los métodos puntuales utilizados en soluciones frequentistas.
norte1+ n2> n1
Si no hay información previa importante y si se utilizan densidades predictivas frecuentas en lugar de estimaciones puntuales, para una muestra fija los resultados de los métodos bayesiano y frecuenta serán idénticos si se elige un solo modelo. Si hay información previa, entonces el método bayesiano tenderá a generar predicciones más precisas. Esta diferencia puede ser muy grande en la práctica. Además, si hay un promedio del modelo, es muy probable que el método bayesiano sea más robusto. Si usa la selección de modelo y congela las predicciones bayesianas, entonces no hay diferencia en usar un modelo Frequentista usando predicciones Frequentistas.
Utilicé un conjunto de prueba y validación porque mis datos no eran intercambiables. Como resultado, necesitaba resolver dos problemas. El primero es similar al quemado en los métodos MCMC. Necesitaba un buen conjunto de estimaciones de parámetros para comenzar mi secuencia de prueba, por lo que utilicé cincuenta años de datos anteriores para obtener una buena densidad previa para comenzar mi prueba de validación. El segundo problema era que necesitaba algún tipo de período estandarizado para realizar la prueba para que la prueba no fuera cuestionada. Usé los dos ciclos comerciales anteriores según la fecha del NBER.