¿Es cierto que los métodos bayesianos no se sobreajustan?

25

¿Es cierto que los métodos bayesianos no se sobreajustan? (Vi algunos documentos y tutoriales haciendo esta afirmación)

Por ejemplo, si aplicamos un Proceso Gaussiano a MNIST (clasificación de dígitos escritos a mano), pero solo le mostramos una sola muestra, ¿volverá a la distribución anterior para cualquier entrada diferente de esa muestra única, por pequeña que sea la diferencia?

— MaxB
fuente

solo estaba pensando: ¿hay una forma matemáticamente precisa de definir "sobre ajuste"? si puede, es probable que también pueda crear características en una función de probabilidad o antes para evitar que suceda. mi opinión es que esta noción suena similar a "valores atípicos".

— probabilidad

25

No, no es verdad. Los métodos bayesianos ciertamente sobrepasarán los datos. Hay un par de cosas que hacen que los métodos bayesianos sean más robustos contra el sobreajuste y también puedes hacerlos más frágiles.

La naturaleza combinatoria de las hipótesis bayesianas, en lugar de las hipótesis binarias, permite comparaciones múltiples cuando alguien carece del modelo "verdadero" para los métodos de hipótesis nulas. Un posterior bayesiano penaliza efectivamente un aumento en la estructura del modelo, como agregar variables y recompensar las mejoras en el ajuste. Las penalizaciones y las ganancias no son optimizaciones, como sería el caso en los métodos no bayesianos, sino cambios en las probabilidades a partir de nueva información.

Si bien esto generalmente proporciona una metodología más sólida, existe una restricción importante y es utilizar distribuciones previas adecuadas. Si bien existe una tendencia a querer imitar los métodos frequentistas mediante el uso de anteriores planos, esto no asegura una solución adecuada. Hay artículos sobre sobreajuste en los métodos bayesianos y me parece que el pecado parece ser tratar de ser "justos" con los métodos no bayesianos al comenzar con antecedentes estrictamente planos. La dificultad es que lo anterior es importante para normalizar la probabilidad.

Los modelos bayesianos son modelos intrínsecamente óptimos en el sentido de admisibilidad de la palabra de Wald, pero hay un coco escondido allí. Wald está asumiendo que el prior es su verdadero prior y no uno anterior que esté utilizando para que los editores no lo critiquen por poner demasiada información en él. No son óptimos en el mismo sentido que los modelos frequentistas. Los métodos frecuentes comienzan con la optimización de minimizar la varianza sin dejar de ser imparcial.

Esta es una optimización costosa ya que descarta información y no es intrínsecamente admisible en el sentido de Wald, aunque con frecuencia es admisible. Por lo tanto, los modelos frequentistas proporcionan un ajuste óptimo a los datos, dada su imparcialidad. Los modelos bayesianos no son ajustes imparciales ni óptimos a los datos. Este es el comercio que está haciendo para minimizar el sobreajuste.

Los modelos bayesianos son modelos intrínsecamente sesgados, a menos que se tomen medidas especiales para hacerlos insesgados, que generalmente se ajustan peor a los datos. Su virtud es que nunca usan menos información que un método alternativo para encontrar el "modelo verdadero" y esta información adicional hace que los modelos bayesianos nunca sean menos riesgosos que los modelos alternativos, particularmente cuando se trabaja fuera de la muestra. Dicho esto, siempre existirá una muestra que podría haberse extraído al azar que sistemáticamente "engañaría" al método bayesiano.

En cuanto a la segunda parte de su pregunta, si analizara una sola muestra, la posterior se alteraría para siempre en todas sus partes y no volvería a la anterior a menos que haya una segunda muestra que cancele exactamente toda la información en el primera muestra Al menos teóricamente esto es cierto. En la práctica, si lo anterior es suficientemente informativo y la observación lo suficientemente informativa, entonces el impacto podría ser tan pequeño que una computadora no podría medir las diferencias debido a la limitación en el número de dígitos significativos. Es posible que un efecto sea demasiado pequeño para que una computadora procese un cambio en la parte posterior.

Entonces, la respuesta es "sí", puede sobreajustar una muestra utilizando un método bayesiano, particularmente si tiene un tamaño de muestra pequeño y antecedentes inadecuados. La segunda respuesta es "no". El teorema de Bayes nunca olvida el impacto de los datos anteriores, aunque el efecto podría ser tan pequeño que lo perderá computacionalmente.

— Dave Harris
fuente

2

En Comienzan con la optimización de minimizar la varianza sin dejar de ser imparcial. ¿Qué son ellos ?

— Richard Hardy

Solo unos pocos modelos (esencialmente un conjunto con medida cero) permiten la formación de estimadores insesgados. Por ejemplo, en un modelo normal , no existe un estimador imparcial de . De hecho, la mayoría de las veces que maximizamos una probabilidad, terminamos con un estimador sesgado.

N (θ, σ^{2})

$N(\theta, \sigma^2)$

σ

$\sigma$

— Andrew M

1

@AndrewM: No es un estimador insesgado de en un modelo normal - stats.stackexchange.com/a/251128/17230 .

σ

$\sigma$

— Scortchi - Restablece a Monica

11

Algo a tener en cuenta es que, como prácticamente en cualquier otro lugar, un problema importante en los métodos bayesianos puede ser la especificación errónea del modelo.

Este es un punto obvio, pero pensé que aún compartiría una historia.

Una viñeta desde atrás en pregrado ...

Una aplicación clásica del filtrado de partículas bayesianas es rastrear la ubicación de un robot mientras se mueve por una habitación. El movimiento expande la incertidumbre mientras que las lecturas del sensor reducen la incertidumbre.

Recuerdo codificar algunas rutinas para hacer esto. Escribí un modelo sensato y motivado teóricamente para la probabilidad de observar varias lecturas de sonar dados los valores verdaderos. Todo fue derivado con precisión y codificado maravillosamente. Luego voy a probarlo ...

¿Que pasó? ¡Fracaso total! ¿Por qué? Mi filtro de partículas rápidamente pensó que las lecturas del sensor habían eliminado casi toda la incertidumbre. Mi nube de puntos colapsó hasta un punto, ¡pero mi robot no estaba necesariamente en ese punto!

Básicamente, mi función de probabilidad era mala; Las lecturas de mis sensores no fueron tan informativas como pensaba. Me estaba equipando demasiado. ¿Una solución? Mezclé un montón más de ruido gaussiano (de manera bastante ad-hoc), la nube de puntos dejó de colapsar, y luego el filtrado funcionó bastante bien.

¿Moral?

Como dijo Box, "todos los modelos están equivocados, pero algunos son útiles". Es casi seguro que no tendrá la verdadera función de probabilidad, y si está lo suficientemente apagada, su método bayesiano puede ir terriblemente mal y sobreajustado.

Agregar un previo no resuelve mágicamente los problemas derivados de suponer que las observaciones son IID cuando no lo son, suponiendo que la probabilidad tenga más curvatura que la que tiene, etc.

— Matthew Gunn
fuente

3

"Una viñeta de pregrado ... Una aplicación clásica del filtrado de partículas bayesianas es rastrear la ubicación de un robot mientras se mueve por una habitación" ... ¿dónde estaba tu estudiante? :)

— Cliff AB