¿Cuánto cálculo es necesario para comprender la estimación de máxima verosimilitud?

11

Estoy tratando de planificar un plan de estudio para aprender MLE. Para hacer esto, estoy tratando de averiguar cuál es el nivel mínimo de cálculo que es necesario para comprender MLE.

¿Es suficiente entender los conceptos básicos del cálculo (es decir, encontrar el mínimo y el máximo de funciones) para comprender MLE?

estimation mathematical-statistics maximum-likelihood

— Histelheim
fuente

2

Como siempre, depende . Si solo está tratando de comprender los conceptos básicos, ser capaz de encontrar funciones extremas lo hace de una manera justa (aunque en muchos casos prácticos de MLE, la L es M numéricamente, en cuyo caso también necesita otras habilidades) como algunos cálculos básicos).

— Glen_b -Reinstala a Monica

Gracias. ¿Podría explicar el caso que mencionó con mayor detalle? Suena interesante.

— histelheim

Está bien, pero ahora tengo que responder. Aférrate.

— Glen_b -Reinstala a Monica

20

Para ampliar mi comentario, depende. Si solo está tratando de comprender los conceptos básicos, ser capaz de encontrar funciones extremas lo hace de una manera justa (aunque en muchos casos prácticos de MLE, la probabilidad se maximiza numéricamente, en cuyo caso necesita algunas otras habilidades además de algunas cálculo básico).

Dejaré de lado los casos simples y agradables en los que obtienes soluciones algebraicas explícitas. Aun así, el cálculo suele ser muy útil.

Asumiré independencia en todo momento. Tomemos el caso más simple posible de optimización de 1 parámetro. Primero veremos un caso en el que podemos tomar derivados y separar una función del parámetro y una estadística.

Considere la densidad $\rm{Gamma}(\alpha,1)$

f_{X} (x; α) = \frac{1}{Γ (α)} x^{α - 1} \exp (- x); x > 0; α > 0

$f_X(x;\alpha) = \frac{1}{\Gamma(\alpha)} x^{\alpha-1} \exp(-x); \,\,\, x>0;\,\,\alpha>0$

Luego para una muestra de tamaño $n$ , la probabilidad es

L (α; x) = \prod_{i = 1}^{n} f_{X} (x_{i}; α)

$\mathcal{L}(\alpha; \mathbf{x}) = \prod_{i=1}^n f_X(x_i;\alpha)$

y entonces la probabilidad logarítmica es

l (α; x) = \sum_{i = 1}^{n} \ln f_{X} (x_{i}; α) = \sum_{i = 1}^{n} \ln (\frac{1}{Γ (α)} x_{i}^{α - 1} \exp (- x_{i}))

$\mathcal{l}(\alpha; \mathbf{x}) = \sum_{i=1}^n \ln{f_X(x_i;\alpha)} \\ = \sum_{i=1}^n \ln{\left(\frac{1}{\Gamma(\alpha)} x_i^{\alpha-1} \exp(-x_i)\right)}\\$

= \sum_{i = 1}^{n} - \ln Γ (α) + (α - 1) \ln x_{i} - x_{i}

$= \sum_{i=1}^n -\ln{\Gamma(\alpha)}+(\alpha-1)\ln{x_i} -x_i\\$

= - n \ln Γ (α) + (α - 1) S_{x} - n \bar{x}

$= -n\ln{\Gamma(\alpha)}+(\alpha-1)S_x -n\bar{x}$ donde

S_{x} = \sum_{i = 1}^{n} \ln x_{i}

$S_x=\sum_{i=1}^n\ln{x_i}$ . Tomando derivados,

\frac{d}{d α} l (α; x) = \frac{d}{d α} (- n \ln Γ (α) + (α - 1) S_{x} - n \bar{x})

$\frac{d}{d\alpha}\mathcal{l}(\alpha; \mathbf{x}) = \frac{d}{d\alpha} \left(-n\ln{\Gamma(\alpha)}+(\alpha-1)S_x -n\bar{x}\right)\\$

= - n \frac{Γ^{'} (α)}{Γ (α)} + S_{x}

$= -n\frac{\Gamma'(\alpha)}{{\Gamma(\alpha)}}+S_x\\$

= - norte ψ (α) + S_{X}

$= -n\psi(\alpha)+S_x$

Así que si establecemos que en cero y tratar de resolver para , podemos conseguir esto: $\hat{\alpha}$

ψ (\hat{α}) = En sol (X)

$\psi(\hat{\alpha})=\ln{G(\mathbf{x})}\\$

donde $\psi(\cdot)$ es el función digamma y $G(\cdot)$ es la media geométrica . No debemos olvidar que, en general, no puede simplemente establecer la derivada en cero y estar seguro de que localizará la argmax ; todavía tiene que mostrar de alguna manera que la solución es máxima (en este caso lo es). En términos más generales, puede obtener mínimos o puntos horizontales de inflexión, e incluso si tiene un máximo local, es posible que no tenga un máximo global (que toco cerca del final).

Entonces nuestra tarea ahora es encontrar el valor de $\hat{\alpha}$ para el cual

ψ (\hat{α}) = sol

$\psi(\hat{\alpha})=g$

donde $g=\ln{G(\mathbf{x})}$ .

Esto no tiene una solución en términos de funciones elementales, debe calcularse numéricamente; al menos pudimos obtener una función del parámetro en un lado y una función de los datos en el otro. Hay varios algoritmos de búsqueda cero que podrían usarse si no tiene una forma explícita de resolver la ecuación (incluso si no tiene derivadas, hay una sección binaria, por ejemplo).

A menudo, no es tan bueno como eso. Considere la densidad logística con escala unitaria:

F (X; μ) = \frac{1}{4 4} {sech}^{2} (\frac{X - μ}{2}) .

$f(x; \mu) =\frac{1}{4} \operatorname{sech}^2\!\left(\frac{x-\mu}{2}\right).$ Ni la argmax de la verosimilitud ni la función log-verosimilitud pueden obtenerse fácilmente algebraicamente; debe utilizar métodos de optimización numérica. En este caso, la función se comporta bastante bien yel método Newton-Raphsondebería ser suficiente para localizar la estimación de ML de

μ

$\mu$ . Si la derivada no estaba disponible o si Newton-Raphson no converge, es posible que se necesiten otros métodos de optimización numérica, como la sección dorada (esto no pretende ser una descripción general de los mejores métodos disponibles, solo mencionando algunos métodos) probable encontrar en un nivel básico).

En términos más generales, es posible que ni siquiera pueda hacer tanto. Considere un Cauchy con mediana $\theta$ y escala de unidad:

F_{X} (X; θ) = \frac{1}{π (1 + (X - θ)^{2})} .

$f_X(x;\theta) = \frac{1}{\pi (1 + (x-\theta)^2)}\,.$

En general, la probabilidad aquí no tiene un máximo local único, sino varios máximos locales. Si encuentra un máximo local, puede haber otro más grande en otro lugar. (A veces las personas se centran en identificar el máximo local más cercano a la mediana, o algo así).

Es fácil para los principiantes suponer que si encuentran un punto de inflexión cóncavo que tienen el argumento máximo de la función, pero además de los modos múltiples (ya discutidos), puede haber máximos que no están asociados con ningún punto de inflexión. Tomar derivados y ponerlos a cero no es suficiente; considere estimar el parámetro para un uniforme en $(0,\theta)$

En otros casos, el espacio del parámetro puede ser discreto.

A veces, encontrar el máximo puede ser bastante complicado.

Y eso es solo una muestra de los problemas con un solo parámetro. Cuando tienes múltiples parámetros, las cosas se vuelven más complicadas nuevamente.

— Glen_b -Reinstate a Monica
fuente

4

$\mathbb{R}^p \to \mathbb{R}$ para maximizar (es decir, la probabilidad), por lo que esto es un poco más avanzado que el caso unidimensional.

Definitivamente será útil alguna instalación con logaritmos, ya que maximizar el logaritmo de la probabilidad suele ser mucho más fácil que maximizar la probabilidad en sí.

$\mathbb{R}^p \to \mathbb{R}$

— Stephan Kolassa
fuente