¿Por favor explíqueme la diferencia en la estimación bayesiana y la estimación de máxima verosimilitud?
¿Por favor explíqueme la diferencia en la estimación bayesiana y la estimación de máxima verosimilitud?
Respuestas:
Es una pregunta muy amplia y mi respuesta aquí solo comienza a arañar un poco la superficie. Usaré la regla de Bayes para explicar los conceptos.
Asumamos que un conjunto de parámetros de distribución de probabilidad, , explica mejor el conjunto de datos . Es posible que deseemos estimar los parámetros con la ayuda de la Regla de Bayes:D θ
Las explicaciones siguen:
Estimación de máxima verosimilitud
Con MLE, buscamos un valor de punto para que maximice la probabilidad, , que se muestra en las ecuaciones anteriores. Podemos denotar este valor como . En MLE, es una estimación puntual, no una variable aleatoria.p ( D | θ ) θ θ
En otras palabras, en la ecuación anterior, MLE trata el término como una constante y NO nos permite inyectar nuestras creencias anteriores, , sobre valores probables para en los cálculos de estimación. p(θ)θ
Estimación Bayesiana
La estimación bayesiana, por el contrario, calcula completamente (o en ocasiones se aproxima) la distribución posterior . La inferencia bayesiana trata a como una variable aleatoria. En la estimación bayesiana, ponemos funciones de densidad de probabilidad y sacamos funciones de densidad de probabilidad, en lugar de un solo punto como en MLE.θ
De todos los valores posibles gracias a la distribución de salida , nuestro trabajo es seleccionar un valor que consideremos mejor en algún sentido. Por ejemplo, podemos elegir el valor esperado de suponiendo que su varianza sea lo suficientemente pequeña. La varianza que podemos calcular para el parámetro partir de su distribución posterior nos permite expresar nuestra confianza en cualquier valor específico que podamos usar como una estimación. Si la varianza es demasiado grande, podemos declarar que no existe una buena estimación para .p ( θ | D ) θ θ θ
Como compensación, la estimación bayesiana se vuelve compleja por el hecho de que ahora tenemos que tratar con el denominador en la regla de Bayes, es decir, la . Aquí la evidencia, o la probabilidad de la evidencia, está representada por:
Esto lleva al concepto de "antecedentes conjugados" en la estimación bayesiana. Para una función de probabilidad dada, si tenemos una opción con respecto a cómo expresamos nuestras creencias anteriores, debemos usar esa forma que nos permite llevar a cabo la integración que se muestra arriba. COOlSerdash explica bastante bien la idea de los antecedentes conjugados y cómo se implementan prácticamente en esta publicación .
Creo que está hablando de la estimación puntual como en la inferencia paramétrica, por lo que podemos asumir un modelo de probabilidad paramétrica para un mecanismo generador de datos, pero se desconoce el valor real del parámetro.
La estimación de máxima probabilidad se refiere al uso de un modelo de probabilidad para los datos y la optimización de la función de probabilidad conjunta de los datos observados en uno o más parámetros. Por lo tanto, se ve que los parámetros estimados son más consistentes con los datos observados en relación con cualquier otro parámetro en el espacio de parámetros. Tenga en cuenta que tales funciones de probabilidad no se consideran necesariamente "condicionales" a los parámetros, ya que los parámetros no son variables aleatorias, por lo tanto, es algo más sofisticado concebir la probabilidad de que varios resultados comparen dos parametrizaciones diferentes. Resulta que este es un enfoque filosóficamente sólido.
La estimación bayesiana es un poco más general porque no estamos maximizando necesariamente el análogo bayesiano de la probabilidad (la densidad posterior). Sin embargo, el tipo análogo de estimación (o estimación en modo posterior) se considera que maximiza la probabilidad del parámetro posterior condicional a los datos. Por lo general, las estimaciones de Bayes obtenidas de tal manera se comportan casi exactamente como las de ML. La diferencia clave es que la inferencia de Bayes permite que un método explícito incorpore información previa.
También 'La historia épica de la máxima verosimilitud es una lectura esclarecedora
La estimación bayesiana es inferencia bayesiana, mientras que el MLE es un tipo de métodos de inferencia frecuentista.
Según la inferencia bayesiana, cumple, es decir, . Tenga en cuenta que la estimación de máxima verosimilitud trata la relación de evidencia a anterior como una constante (estableciendo la distribución previa como distribución uniforme, en jugar un dado, por ejemplo), lo que omite las creencias anteriores, por lo tanto MLE se considera una técnica frecuentista (en lugar de bayesiana). Y lo anterior puede no ser lo mismo en este escenario, porque si las muestras son lo suficientemente grandes, MLE equivale a MAP (para una deducción detallada, consulte esta respuesta ). likelihood=posterior∗evidence p(θ)=1/6
La alternativa de MLE en inferencia bayesiana se llama estimación máxima a posteriori (MAP para abreviar), y en realidad MLE es un caso especial de MAP donde el previo es uniforme, como vemos arriba y como se establece en Wikipedia :
Desde el punto de vista de la inferencia bayesiana, MLE es un caso especial de estimación máxima a posteriori (MAP) que supone una distribución previa uniforme de los parámetros.
Para obtener más detalles, consulte este increíble artículo: MLE vs MAP: la conexión entre la máxima verosimilitud y la máxima estimación a posteriori .
Y una diferencia más es que la probabilidad máxima es propensa al sobreajuste, pero si adopta el enfoque bayesiano, se puede evitar el problema del sobreajuste.