¿Alguna vez usamos la estimación de máxima verosimilitud?

14

Me pregunto si alguna vez se utilizó la estimación de máxima verosimilitud en las estadísticas. Aprendemos el concepto, pero me pregunto cuándo se usa realmente. Si asumimos la distribución de los datos, encontramos dos parámetros, uno para la media y otro para la varianza, pero ¿realmente lo usa en situaciones reales?

¿Alguien puede decirme un caso simple en el que se utiliza?

estimation maximum-likelihood

— usuario122358
fuente

33

Es

método de estimación más frecuente.

the

$\textit{the}$

— JohnK

3

Estaba tratando de preguntar cuándo no estamos usando MLE

— Haitao Du

44

Regresión logística. Regresión de Poisson. OLS es el MLE cuando se supone que los errores son normales. Regresión gamma. Cualquier GLM clásico realmente. Estimación de la media de una población normal. Estimación de la probabilidad de éxito de una serie de ensayos binomiales. Estimación de la tasa de eventos de Poisson. Podría seguir ...

— GoF_Logistic

44

Esta búsqueda muy limitada de nuestro sitio produce cientos de ejemplos de usos reales.

— whuber

66

@ hxd1011 Usted no está usando el MLE cuando no se está utilizando sus métodos para obtener estimaciones de las varianzas o a la confianza de cálculo, predicción, o intervalos de tolerancia, por ejemplo, incluso cuando el estimador está utilizando podría pasar a estar de acuerdo con el estimador MLE. Por ejemplo, no está utilizando MLE cuando ejecuta una prueba t. A menudo no lo está utilizando cuando aplica estimadores imparciales. Filosóficamente, no estarías usando MLE cuando te preocupes por una función de pérdida o si tienes una distribución previa.

— whuber

25

Me pregunto si alguna vez se utilizó la estimación de máxima verosimilitud en las estadísticas.

¡Ciertamente! En realidad bastante, pero no siempre.

Aprendemos el concepto, pero me pregunto cuándo se usa realmente.

Cuando las personas tienen un modelo de distribución paramétrico, a menudo eligen usar la estimación de máxima verosimilitud. Cuando el modelo es correcto, hay varias propiedades útiles de los estimadores de máxima verosimilitud.

Por ejemplo, el uso de modelos lineales generalizados está bastante extendido y en ese caso los parámetros que describen la media se estiman por máxima probabilidad.

Puede suceder que algunos parámetros se estimen por la máxima probabilidad y otros no. Por ejemplo, considere un GLM de Poisson sobredispersado: el parámetro de dispersión no se estimará con la máxima probabilidad, porque el MLE no es útil en ese caso.

Si asumimos la distribución de los datos, encontramos dos parámetros.

Bueno, a veces puede tener dos, pero a veces tiene un parámetro, a veces tres o cuatro o más.

uno para la media y otro para la varianza,

¿Estás pensando en un modelo particular quizás? Este no es siempre el caso. Considere estimar el parámetro de una distribución exponencial o una distribución de Poisson, o una distribución binomial. En cada uno de esos casos, hay un parámetro y la varianza es una función del parámetro que describe la media.

O considere una distribución gamma generalizada , que tiene tres parámetros. O una distribución beta de cuatro parámetros , que tiene (tal vez como era de esperar) cuatro parámetros. Tenga en cuenta también que (dependiendo de la parametrización particular) la media o la varianza o ambas pueden no estar representadas por un solo parámetro sino por las funciones de varios de ellos.

Por ejemplo, la distribución gamma, para la cual hay tres parametrizaciones que se ven bastante comunes, las dos más comunes tienen la media y la varianza como funciones de dos parámetros.

Típicamente en un modelo de regresión o un GLM, o un modelo de supervivencia (entre muchos otros tipos de modelos), el modelo puede depender de múltiples predictores, en cuyo caso la distribución asociada con cada observación bajo el modelo puede tener uno de sus propios parámetros (o incluso varios parámetros) que están relacionados con muchas variables predictoras ("variables independientes").

— Glen_b -Reinstate a Monica
fuente

55

"Cuando las personas tienen un modelo de distribución paramétrico". No olvide la estimación no paramétrica de máxima verosimilitud, para incluir la verosimilitud empírica.

— Mark L. Stone

3

@ Mark Sin embargo, es relativamente más raro. Agregaré una palabra a mi respuesta.

— Glen_b -Reinstalar Monica

¿Podemos usar la estimación de máxima verosimilitud aunque supongamos que la distribución, por ejemplo, es normal? Creo que no necesitamos hacerlo pero aún podemos usarlo, ¿estoy en lo cierto?

— user122358

@ user122358 Glen y Mark ya te respondieron. Puede asumir una distribución o no. La mayoría de las veces asume una distribución y, por lo tanto, una función de probabilidad.

— HelloWorld

3

"Cuando las personas tienen un modelo de distribución paramétrico". No olvide la estimación de probabilidad máxima semi-paramétrica, para incluir la probabilidad parcial. ;)

— Scortchi - Restablece a Monica

8

Si bien los estimadores de máxima probabilidad pueden parecer sospechosos dados los supuestos sobre la distribución de datos, a menudo se usan los estimadores de cuasi máxima verosimilitud. La idea es comenzar asumiendo una distribución y resolver el MLE, luego eliminar el supuesto de distribución explícito y, en cambio, observar cómo funciona su estimador en condiciones más generales. Por lo tanto, el Cuasi MLE se convierte en una forma inteligente de obtener un estimador, y la mayor parte del trabajo deriva las propiedades del estimador. Dado que los supuestos de distribución se descartan, el cuasi MLE generalmente no tiene buenas propiedades de eficiencia.

$x_1, x_2, ..., x_n$ $X$ $X \sim N (\mu, \sigma^2)$ $\hat\sigma^2 = n^{-1}\sum (x_i - \bar x)^2$ $\hat\sigma^2$

— Igor
fuente

Además, puede consultar este hilo en la intuición detrás del Cuasi MLE.

— Richard Hardy

5

La estimación de máxima verosimilitud se usa a menudo en el aprendizaje automático para entrenar:

redes neuronales, por ejemplo, ¿podemos usar MLE para estimar los pesos de las redes neuronales?
regresión logística lineal y regresión logística multiclase, p. ej. ¿Por qué los coeficientes de regresión logística y lineal no pueden estimarse utilizando el mismo método?
campo aleatorio condicional (CRF), por ejemplo, https://www.coursera.org/learn/probabilistic-graphical-models-3-learning/lecture/oKJ1x/maximum-likelihood-for-conditional-random-fields
modelo oculto de Markov (HMM), por ejemplo, https://en.wikipedia.org/w/index.php?title=Hidden_Markov_model&oldid=768811108#Learning

Tenga en cuenta que en algunos casos se prefiere agregar cierta regularización, que a veces es equivalente a la estimación máxima a posteriori , por ejemplo, ¿ por qué la penalización de Lasso es equivalente al doble exponencial (Laplace) anterior? .

— Franck Dernoncourt
fuente

3

¿Alguien puede decirme un caso simple en el que se utiliza?

Un caso muy típico es en regresión logística. La regresión logística es una técnica utilizada a menudo en el aprendizaje automático para clasificar puntos de datos. Por ejemplo, la regresión logística se puede usar para clasificar si un correo electrónico es spam o no, o para clasificar si una persona tiene o no una enfermedad.

$x_i$ $h_\theta(x_i) = P[y_i = 1] = \frac{1}{1+e^{-\theta^T x_i}}$

$\theta$

$\hat\theta$ $-\sum_{i=1}^n y_i\log(h_\hat\theta(x_i)) + (1-y_i)\log(1-h_{\hat\theta}(x_i))$

— usuario35734
fuente

1

Estamos usando MLE todo el tiempo, pero es posible que no lo sintamos. Daré dos ejemplos simples para mostrar.

Ejemplo 1

Si observamos el resultado del lanzamiento de la moneda, con $8$ salir de $10$ volteretas (suponiendo iid. de Bernoulli), cómo adivinar el parámetro $\theta$ (problema de la cabeza) de la moneda? Podemos decir $\theta=0.8$ , utilizando "contar".

¿Por qué usar contar? ¡Esto está usando implícitamente MLE! Donde esta el problema

\underset{θ}{Maximizar} θ^{8} (1 - θ)^{2}

$\underset \theta {\text{Maximize}}~~~\theta^{8}(1-\theta)^{2}$

Para resolver la ecuación, necesitaremos algunos cálculos, pero la conclusión es contar.

Ejemplo 2

¿Cómo estimaríamos los parámetros de distribución gaussianos a partir de los datos? Utilizamos la media empírica como media estimada y la varianza empírica como varianza estimada, ¡que también proviene de MLE !.

— Haitao Du
fuente

66

El ejemplo 1 también es una solución de Bayes y una solución de método de momentos (MM) (y probablemente también es la solución que utiliza otros procedimientos). El ejemplo 2 es la solución MM. Sería mucho más convincente exhibir procedimientos que son exclusivamente MLE, ya que de lo contrario uno nunca necesitaría MLE.

— whuber

¿Por qué el ejemplo 1 se convierte en una solución Bayes y el Ejemplo 2 se convierte en la solución MM? ¿Qué es MM, por cierto?

— user122358

@ user122358 MM es el método de los momentos. Vea aquí, por ejemplo: en.wikipedia.org/wiki/Method_of_moments_(statistics)

— jld

0

Algunos usos de máxima probabilidad en la comunicación inalámbrica:

Decodificación de datos digitales de señales recibidas ruidosas, con o sin códigos redundantes.
Estimación de compensaciones de tiempo, fase y frecuencia en receptores.
Estimación del (parámetros del) canal de propagación.
Estimación de retraso, ángulo de llegada y desplazamiento Doppler (p. Ej., Radar).
Estimación de una posición móvil (p. Ej., GPS).
Estimación de las compensaciones de reloj para la sincronización de todo tipo de configuraciones distribuidas.
Una multitud de procedimientos de calibración.

— GDumphart
fuente