Razonamiento intuitivo detrás de estimadores sesgados de máxima verosimilitud

25

Tengo una confusión sobre los estimadores sesgados de máxima verosimilitud (ML). La matemática de todo el concepto es bastante clara para mí, pero no puedo entender el razonamiento intuitivo detrás de él.

Dado un determinado conjunto de datos que tiene muestras de una distribución, que en sí misma es una función de un parámetro que queremos estimar, el estimador ML da como resultado el valor del parámetro que es más probable que produzca el conjunto de datos.

No puedo entender intuitivamente un estimador de ML sesgado en el sentido de que: ¿cómo puede el valor más probable para el parámetro predecir el valor real del parámetro con un sesgo hacia un valor incorrecto?

maximum-likelihood bias

— ssah
fuente

Posible duplicado de la Estimación

— simples

Creo que el enfoque en el sesgo aquí puede distinguir esta pregunta del duplicado propuesto, aunque ciertamente están estrechamente relacionados.

— Silverfish el

14

el estimador ML da como resultado el valor del parámetro que es más probable que ocurra en el conjunto de datos.

Dados los supuestos, el estimador de ML es el valor del parámetro que tiene la mejor oportunidad de producir el conjunto de datos.

No puedo entender intuitivamente un estimador de ML sesgado en el sentido de que "¿cómo puede el valor más probable para el parámetro predecir el valor real del parámetro con un sesgo hacia un valor incorrecto?"

El sesgo se trata de las expectativas de las distribuciones de muestreo. "Lo más probable es que produzca los datos" no se trata de expectativas de distribuciones de muestreo. ¿Por qué se espera que vayan juntos?

¿Sobre qué base sorprende que no se correspondan necesariamente?

Le sugiero que considere algunos casos simples de MLE y reflexione sobre cómo surge la diferencia en esos casos particulares.

Como ejemplo, considere las observaciones en un uniforme en . La observación más grande no es (necesariamente) mayor que el parámetro, por lo que el parámetro solo puede tomar valores al menos tan grandes como la observación más grande. $(0,\theta)$

Cuando considera la probabilidad de , es (obviamente) más grande cuanto más cerca esté de la observación más grande. Entonces se maximiza en la observación más grande; esa es claramente la estimación de que maximiza la posibilidad de obtener la muestra que obtuvo: $\theta$ $\theta$ $\theta$

ingrese la descripción de la imagen aquí

Pero, por otro lado, debe estar sesgado, ya que la observación más grande es obviamente (con probabilidad 1) menor que el valor verdadero de ; cualquier otra estimación de no haya sido descartada por la muestra en sí misma debe ser mayor que esta y (en este caso) debe ser menos probable que produzca la muestra. $\theta$ $\theta$

La expectativa de la observación más grande de una es , por lo que la forma habitual de unbias es tomar como estimador de : , donde es la observación más grande. $U(0,\theta)$ $\frac{n}{n+1}$ $\theta$ $\hat\theta=\frac{n+1}{n}X_{(n)}$ $X_{(n)}$

Esto se encuentra a la derecha del MLE y, por lo tanto, tiene una probabilidad menor.

— Glen_b -Reinstate a Monica
fuente

gracias por tu respuesta. Sobre la primera parte, me expresé incorrectamente. Básicamente quise decir lo que dijiste. Basado en su respuesta a la segunda parte, ¿puedo concluir que dado otro conjunto de datos extraídos de la misma distribución, el estimador de ML dará como resultado un sesgo diferente? Como usted dice que el estimador de ML es el que "más probablemente" produce los datos. Si cambiamos los datos, es probable que algún otro estimador los produzca. ¿Es eso correcto?

— ssah

El estimador no cambiará si la forma de distribución de la población no cambia. Se generará alguna otra estimación con una muestra diferente y la cantidad por la cual está sesgada generalmente será diferente: el sesgo generalmente está relacionado con el tamaño de la muestra, incluso si la población es la misma. ... (ctd)

— Glen_b -Reinstale Monica

(ctd) ...

$\quad$

m

$m$

n

$n$

θ

$\theta$

Buen uso del ejemplo canónico para ver la diferencia entre estimadores imparciales y de ML.

— Grupo mixto

6

$\beta^{MLE}$ $\beta$ $\beta$ $\beta^{MLE}$

$\frac{N}{N-1}$

— Dimitriy V. Masterov
fuente

Perdón por el error en la primera parte. Lo edité y lo arreglé. Pero sobre lo que dijo sobre el MLE, ¿por qué estaría sesgado en primer lugar en el caso no asintótico?

— ssah

2

"Mejor" depende de lo que mires; La corrección de Bessel lo hace imparcial, pero la imparcialidad no es automáticamente "mejor" (el MSE es peor, por ejemplo; ¿por qué debería preferir la imparcialidad al MSE más pequeño?). Podría decirse que la imparcialidad es mejor, ceteris paribus , pero desafortunadamente el ceteris no será paribus .

— Glen_b -Reinstalar a Monica

Comprendí que se puede demostrar que el estimador imparcial es mejor imparcial a través de la relación entre el MLE y el límite inferior Cramer-Rao.

— Dimitriy V. Masterov

@ssah Me han dicho que es porque estamos usando la media muestral en lugar de la media real en la fórmula. Para ser honesto, nunca he encontrado esta explicación particularmente intuitiva, porque si el estimador MLE de la media es imparcial, ¿por qué debería salir mal? Generalmente pongo mis dudas a descansar con una simulación.

— Dimitriy V. Masterov

5

Aquí está mi intuición.

El sesgo es una medida de precisión , pero también existe una noción de precisión .

ingrese la descripción de la imagen aquí

En un mundo ideal, obtendríamos la estimación, que es tanto precisa como precisa, es decir, siempre da en el blanco. Desafortunadamente, en nuestro mundo imperfecto, tenemos que equilibrar la precisión y la precisión. A veces podemos sentir que podríamos dar un poco de precisión para ganar más precisión: intercambiamos todo el tiempo. Por lo tanto, el hecho de que un estimador esté sesgado no significa que sea malo: podría ser que sea más preciso.

— Aksakal
fuente