el estimador ML da como resultado el valor del parámetro que es más probable que ocurra en el conjunto de datos.
Dados los supuestos, el estimador de ML es el valor del parámetro que tiene la mejor oportunidad de producir el conjunto de datos.
No puedo entender intuitivamente un estimador de ML sesgado en el sentido de que "¿cómo puede el valor más probable para el parámetro predecir el valor real del parámetro con un sesgo hacia un valor incorrecto?"
El sesgo se trata de las expectativas de las distribuciones de muestreo. "Lo más probable es que produzca los datos" no se trata de expectativas de distribuciones de muestreo. ¿Por qué se espera que vayan juntos?
¿Sobre qué base sorprende que no se correspondan necesariamente?
Le sugiero que considere algunos casos simples de MLE y reflexione sobre cómo surge la diferencia en esos casos particulares.
Como ejemplo, considere las observaciones en un uniforme en . La observación más grande no es (necesariamente) mayor que el parámetro, por lo que el parámetro solo puede tomar valores al menos tan grandes como la observación más grande.(0,θ)
Cuando considera la probabilidad de , es (obviamente) más grande cuanto más cerca esté de la observación más grande. Entonces se maximiza en la observación más grande; esa es claramente la estimación de que maximiza la posibilidad de obtener la muestra que obtuvo:θθθ
Pero, por otro lado, debe estar sesgado, ya que la observación más grande es obviamente (con probabilidad 1) menor que el valor verdadero de ; cualquier otra estimación de no haya sido descartada por la muestra en sí misma debe ser mayor que esta y (en este caso) debe ser menos probable que produzca la muestra.θθ
La expectativa de la observación más grande de una es , por lo que la forma habitual de unbias es tomar como estimador de : , donde es la observación más grande.U(0,θ)nn+1θθ^=n+1nX(n)X(n)
Esto se encuentra a la derecha del MLE y, por lo tanto, tiene una probabilidad menor.