Con respecto al comentario de Robby McKilliam: creo que la dificultad que un frecuentador tendría con esto radica en la definición de "conocimiento previo", no tanto en la capacidad de incorporar conocimiento previo en un modelo. Por ejemplo, considere estimar la probabilidad de que una moneda determinada salga cara. Supongamos que mi conocimiento previo fue, esencialmente, un experimento en el que esa moneda se volteó 10 veces y obtuvo 5 caras, o tal vez de la forma "la fábrica hizo 1 millón de monedas, y la diferencia de , como determinado por grandes experimentos, es β ( a , b )pβ(a,b)". Todo el mundo usa la regla de Bayes cuando realmente tiene información previa de este tipo (la regla de Bayes solo define la probabilidad condicional, no es algo solo bayesiano) así que en la vida real el frecuentista y el bayesiano usarían el mismo enfoque, y incorpore la información en el modelo a través de la regla de Bayes. (Advertencia: a menos que el tamaño de su muestra sea lo suficientemente grande como para estar bastante seguro de que la información previa no tendrá un efecto en los resultados). Sin embargo, la interpretación de los resultados es, de Por supuesto, diferente.
La dificultad surge, especialmente desde un punto de vista filosófico, ya que el conocimiento se vuelve menos objetivo / experimental y más subjetivo. A medida que esto suceda, el frecuentista probablemente se sentirá menos inclinado a incorporar esta información en el modelo, mientras que el bayesiano todavía tiene algunos mecanismos más o menos formales para hacerlo, a pesar de las dificultades de obtener un previo subjetivo.
Con respecto a la regularización: Considere una probabilidad y una p ( θ ) previa . No hay nada que impida, al menos no técnicamente, que un frecuentador use la estimación de máxima verosimilitud "regularizada" por log p ( θ ) , como en:l(θ;x)p(θ)logp(θ)
θ~=maxθ{logl(θ;x)+logp(θ)}
Para gaussiano, esto equivale a una penalización cuadrática que se reduce θ hacia la media del gaussiano, y así sucesivamente para otras distribuciones. ˜ θ es igual a la estimación puntual máxima a posteriori (MAP) de un Bayesiano usando la misma función de probabilidad y anterior. Por supuesto, nuevamente, la interpretación de las estimaciones frecuentistas y bayesianas será diferente. El Bayesiano tampoco está obligado a usar una estimación puntual MAP, teniendo acceso a una distribución posterior completa, pero tampoco es necesario que el frecuentador maximice una probabilidad logarítmica regularizada, ya que puede utilizar varias estimaciones robustas o métodos de -momentos, etc., si están disponibles.p ( θ )θθ~
Nuevamente, la dificultad surge desde un punto de vista filosófico. ¿Por qué elegir una función de regularización sobre otra? Un bayesiano puede hacerlo, cambiando a una vista previa, evaluando la información previa. Un frecuentista tendría más dificultades (¿no puede hacerlo?) Justificando una elección por esos motivos, pero probablemente lo haría en gran medida en función de las propiedades de la función de regularización aplicada a su tipo de problema, como se aprendió de la articulación trabajo / experiencia de muchos estadísticos. OTOH, (pragmáticos) los bayesianos también lo hacen con los anteriores, si tuviera $ 100 por cada artículo sobre los anteriores para las variaciones que he leído ...
Otros "pensamientos": he omitido todo el tema de seleccionar una función de probabilidad asumiendo que no se ve afectada por el punto de vista frecuentista / bayesiano. Estoy seguro de que en la mayoría de los casos lo es, pero puedo imaginar que en situaciones inusuales sería, por ejemplo, por razones computacionales.
θθ