¿Por qué MLE tiene sentido, dada la probabilidad de que una muestra individual sea 0?


13

Este es un pensamiento extraño que tuve al revisar algunas estadísticas antiguas y, por alguna razón, parece que no puedo pensar en la respuesta.

Un PDF continuo nos dice la densidad de los valores de observación en cualquier rango dado. Es decir, si , por ejemplo, entonces la probabilidad de que una realización cae entre y es simplemente donde es la densidad de la norma normal.XN(μ,σ2)ababϕ(x)dxϕ

Cuando pensamos en hacer una estimación MLE de un parámetro, digamos de , escribimos la densidad conjunta de, digamos , variables aleatorias y diferenciamos la probabilidad de registro wrt a , establecemos igual a 0 y resolvemos para . La interpretación que a menudo se da es "dados los datos, qué parámetro hace que esta función de densidad sea más plausible".μNX1..XNμμ

La parte que me molesta es esta: tenemos una densidad de rv, y la probabilidad de que obtengamos una realización particular, digamos nuestra muestra, es exactamente 0. ¿Por qué tiene sentido maximizar la densidad conjunta dada nuestra información? ¿De nuevo, la probabilidad de observar nuestra muestra real es exactamente 0)?N

La única racionalización que se me ocurre es que queremos hacer que el PDF tenga el máximo posible alrededor de nuestra muestra observada para que la integral en la región (y, por lo tanto, la probabilidad de observar cosas en esta región) sea más alta.


1
Por la misma razón, usamos densidades de probabilidad stats.stackexchange.com/q/4220/35989
Tim

Entiendo (creo) por qué tiene sentido usar densidades. Lo que no entiendo es por qué tiene sentido maximizar una densidad condicional a la observación de una muestra que tiene 0 probabilidad de ocurrir.
Alex

2
Porque las densidades de probabilidad nos dicen qué valores son relativamente más probables que otros.
Tim

Si tiene tiempo para responder completamente la pregunta, creo que sería más útil para mí y para la próxima persona.
Alex

Porque, afortunadamente, ¡la probabilidad no es una probabilidad!
AdamO

Respuestas:


18

La probabilidad de cualquier muestra, Pθ(X=x) , es igual a cero y, sin embargo, una muestra se obtiene a partir de una distribución de probabilidad. Por lo tanto, la probabilidad es la herramienta incorrecta para evaluar una muestra y la probabilidad de que ocurra. La probabilidad estadística, según la definición de Fisher (1912), se basa en el argumento limitante de la probabilidad de observar la muestra x dentro de un intervalo de longitud δ cuando δ llega a cero (citando de Aldrich, 1997) :

Aldrich, J. (1997) Statistical Science12, 162-176

al renormalizar esta probabilidad por δ . El término de función de probabilidad solo se introduce en Fisher (1921) y de máxima probabilidad en Fisher (1922).

Aunque pasó a la denominación de "valor más probable", y utilizó un principio de probabilidad inversa (inferencia bayesiana) con un previo plano, Carl Friedrich Gauß ya había derivado en 1809 un estimador de máxima verosimilitud para el parámetro de varianza de una distribución Normal. Hald (1999) menciona varias otras ocurrencias de estimadores de máxima verosimilitud antes del artículo de Fisher de 1912, que establece el principio general.

Una justificación posterior del enfoque de máxima verosimilitud es que, dado que la log-verosimilitud renormalizada de una muestra (x1,,xn)

1ni=1nlogfθ(xi)
converge a [Ley de números grandes]
E[logfθ(X)]=logfθ(x)f0(x)dx
f0θθ
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
entre la distribución verdadera de la muestra iid y la familia de distribuciones representadas por lasfθ 's.


Gracias por la respuesta. ¿Podría ampliar un poco el argumento KL? No veo cómo este es el caso de inmediato.
Alex
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.