¿La estimación de MLE es asintóticamente normal y eficiente incluso si el modelo no es verdadero?

Premisa: esta puede ser una pregunta estúpida. Solo conozco las afirmaciones sobre las propiedades asintóticas de MLE, pero nunca estudié las pruebas. Si lo hiciera, tal vez no estaría haciendo estas preguntas, o tal vez me daría cuenta de que estas preguntas no tienen sentido ... así que por favor, cálmate :)

A menudo he visto declaraciones que dicen que el estimador MLE de los parámetros de un modelo es asintóticamente normal y eficiente. La declaración generalmente se escribe como

$\hat{\theta}\xrightarrow[]{d}\mathcal{N}(\theta_0,\mathbf{I}(\theta_0)^{-1})$ como $N\to\infty$

donde es el número de muestras, es información de Fisher y es el valor verdadero del parámetro (vector) . Ahora, dado que hay una referencia a un modelo verdadero, ¿significa esto que el resultado no se mantendrá si el modelo no es verdadero? $N$ $\mathbf{I}$ $\theta_0$

Ejemplo: supongamos que modelo la potencia de salida de una turbina eólica en función de la velocidad del viento más el ruido gaussiano aditivo $P$ $V$

$P=\beta_0+\beta_1V+\beta_2V^2+\epsilon$

Sé que el modelo está equivocado, al menos por dos razones: 1) es realmente proporcional a la tercera potencia de y 2) el error no es aditivo, porque descuidé otros predictores que no están correlacionados con la velocidad del viento (también sé eso debería ser 0 porque a 0 velocidad del viento no se genera energía, pero eso no es relevante aquí). Ahora, supongamos que tengo una base de datos infinita de datos de potencia y velocidad del viento de mi turbina eólica. Puedo dibujar tantas muestras como quiera, de cualquier tamaño. Supongamos que dibujo 1000 muestras, cada una de tamaño 100, y calculo , la estimación MLE de $P$ $V$ $\beta_0$ $\hat{\boldsymbol{\beta}}_{100}$ $\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)$ (que según mi modelo sería la estimación de OLS). Por lo tanto, tengo 1000 muestras de la distribución de $\hat{\boldsymbol{\beta}}_{100}$ . Puedo repetir el ejercicio con $N=500,1000,1500,\dots$ . Como $N\to\infty$ , ¿la distribución de $\hat{\boldsymbol{\beta}}_{N}$ tiende a ser asintóticamente normal, con la media y la varianza establecidas? ¿O el hecho de que el modelo es incorrecto invalida este resultado?

La razón por la que pregunto es que raramente (si alguna vez) los modelos son "verdaderos" en las aplicaciones. Si las propiedades asintóticas de MLE se pierden cuando el modelo no es verdadero, entonces podría tener sentido usar diferentes principios de estimación, que si bien son menos potentes en un entorno donde el modelo es correcto, pueden funcionar mejor que MLE en otros casos.

EDITAR : se observó en los comentarios que la noción de modelo verdadero puede ser problemática. Tenía en mente la siguiente definición: dada una familia de modelos indicada por el vector de parámetros , para cada modelo de la familia siempre puede escribir $f_{\boldsymbol{\theta}}(x)$ $\boldsymbol{\theta}$

$Y=f_{\boldsymbol{\theta}}(X)+\epsilon$

simplemente definiendo como . Sin embargo, en general, el error no será ortogonal a , tendrá una media de 0 y no necesariamente tendrá la distribución asumida en la derivación del modelo. Si existe un valor tal que tiene estas dos propiedades, así como la distribución supuesta, diría que el modelo es verdadero. Creo que esto está directamente relacionado con decir que , porque el término de error en la descomposición $\epsilon$ $Y-f_{\boldsymbol{\theta}}(X)$ $X$ $\boldsymbol{\theta_0}$ $\epsilon$ $f_{\boldsymbol{\theta_0}}(X)=E[Y|X]$

$Y=E[Y|X]+\epsilon$

tiene las dos propiedades mencionadas anteriormente.

maximum-likelihood model asymptotics

— DeltaIV
fuente

La estimación de MLE a menudo es asintóticamente normal incluso si el modelo no es verdadero, por ejemplo, podría ser consistente para los valores de los parámetros "menos falsos". Pero en tales casos será difícil mostrar eficiencia u otras propiedades de optimización.

— kjetil b halvorsen

Antes de la eficiencia debemos mirar a la consistencia. En un escenario en el que la verdad no está en su espacio de búsqueda, necesitamos una definición diferente de consistencia tal que: d (P *, P), donde d es una divergencia P * es el modelo más cercano en términos de d, y P es la verdad. Cuando d es divergencia KL (lo que MLE está minimizando), por ejemplo, se sabe que los procedimientos bayesianos son inconsistentes (no pueden alcanzar el modelo más cercano) a menos que el modelo sea convexo. Por lo tanto, asumiría que MLE también será inconsistente. Por lo tanto, la eficiencia se vuelve mal definida. homepage.tudelft.nl/19j49/benelearn/papers/Paper_Grunwald.pdf

— Cagdas Ozgenc

@Cagdas Ozgenc: en muchos casos (como la regresión logística) MLE sigue siendo consistente para los parámetros "menos falsos". ¿Tiene una referencia para su reclamo sobre inconsistencia en el caso no convexo? Estaría muy interesado? (La función de probabilidad de regresión logística es convexa)

— kjetil b halvorsen

@kjetilbhalvorsen homepages.cwi.nl/~pdg/ftp/inconsistency.pdf Está muy por encima de mi cabeza, pero es lo que entiendo. Si mi comprensión es falsa, corríjame. Solo soy un aficionado después de todo.

— Cagdas Ozgenc

Creo que nos metemos en problemas cuando usamos términos como "modelo es verdadero" o "menos falso". Cuando se trata de modelos en la práctica, todos son aproximados. Si hacemos ciertas suposiciones podemos usar las matemáticas para mostrar propiedades estadísticas. Aquí siempre hay un conflicto entre las matemáticas de probabilidad y el análisis práctico de datos.

— Michael R. Chernick

No creo que haya una sola respuesta a esta pregunta.

Cuando consideramos una posible especificación de distribución errónea al aplicar la estimación de máxima verosimilitud, obtenemos lo que se llama el estimador de "cuasi-máxima verosimilitud" (QMLE). En ciertos casos, el QMLE es consistente y asintóticamente normal.

Lo que pierde con certeza es la eficiencia asintótica. Esto se debe a que la varianza asintótica de (esta es la cantidad que tiene una distribución asintótica, no solo ) es, en todos los casos, $\sqrt n (\hat \theta - \theta)$ $\hat \theta$

\begin{matrix} (1) & Avar [\sqrt{n} (\hat{θ} - θ)] = plim ([\hat{H}]^{- 1} [\hat{S} {\hat{S}}^{T}] [\hat{H}]^{- 1}) \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = \text{plim}\Big( [\hat H]^{-1}[\hat S \hat S^T][\hat H]^{-1}\Big) \tag{1}$

donde es la matriz de Hesse de la probabilidad logarítmica y es el gradiente, y el sombrero indica estimaciones de muestra. $H$ $S$

Ahora, si tenemos la especificación correcta , obtenemos, primero, que

\begin{matrix} (2) & Avar [\sqrt{n} (\hat{θ} - θ)] = (E [H_{0}])^{- 1} E [S_{0} S_{0}^{T}] (E [H_{0}])^{- 1} \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = (\mathbb E[H_0])^{-1}\mathbb E[S_0S_0^T](\mathbb E[H_0])^{-1} \tag{2}$

donde el subíndice " " denota la evaluación de los parámetros verdaderos (y tenga en cuenta que el término medio es la definición de Información de Fisher), y segundo, que la " igualdad de la matriz de información " es válida y dice que , lo que significa que la varianza asintótica finalmente será $0$ $-\mathbb E[H_0] = \mathbb E[S_0S_0^T]$

\begin{matrix} (3) & Avar [\sqrt{n} (\hat{θ} - θ)] = - (E [H_{0}])^{- 1} \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = -(\mathbb E[H_0])^{-1} \tag{3}$

que es el inverso de la información de Fisher.

Pero si tenemos una especificación errónea, la expresión no conduce a la expresión (porque la primera y la segunda derivada en se han derivado en base a la probabilidad incorrecta). Esto a su vez implica que la desigualdad de la matriz de información no se cumple, que no terminamos en la expresión y que el (Q) MLE no alcanza la eficiencia asintótica completa. $(1)$ $(2)$ $(1)$ $(3)$

— Alecos Papadopoulos
fuente

Avar

$\text{Avar}$ es la varianza asintótica de la variable aleatoria, y significa convergencia en la probabilidad, ¿verdad? Su respuesta parece muy interesante, pero no entiendo qué es en su contexto. Me refería a un caso donde el valor correcto de simplemente no existe: vea mi ejemplo de aerogenerador, donde sea cual sea el valor de , no hay valor que hace que el modelo sea correcto, porque no hay término y porque faltan otros predictores correlacionados con¿Qué significaría en este contexto?

plim

$\text{plim}$

θ

$\theta$

θ

$\theta$

β = (β_{0}, β_{1}, β_{2})

$\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)$

β_{3}

$\beta_3$

V

$V$

θ

$\theta$

— DeltaIV

lo siento, la primera edición de mi comentario fue incomprensible: ahora mi punto debería estar claro. En otras palabras, si no hay un "verdadero" , ¿qué debemos interpretar como en la expresión ?

θ

$\theta$

θ

$\theta$

\sqrt{n} (\hat{θ} - θ)

$\sqrt n (\hat \theta - \theta)$

— DeltaIV

@DeltaIV Zero. ¿QMLE "atrapará" esto? Depende de si será consistente o no, y una vez más, no hay una respuesta única para esa pregunta

— Alecos Papadopoulos

Entendí. Entonces, el QMLE (si es consistente) debería converger a : hubiera pensado que convergería a algún valor de parámetro "menos falso", como lo sugiere @kjetilbhalvorsen. ¿Puede sugerir alguna referencia sobre el QMLE y las ecuaciones que escribió? Gracias

θ = 0

$\theta=0$

— DeltaIV

@DeltaIV Sugeriría la exposición en Hayashi ch. 7 sobre los Estimadores Extremum, en cuanto a la consistencia, normalidad, etc. de MLE. En cuanto a QMLE, el tema es bastante amplio. Por ejemplo, en "QMLE", es posible que también tengamos situaciones en las que reconocemos desde el principio que los parámetros que estamos estimando pueden no tener una conexión clara con ningún "parámetro verdadero" (pero el ejercicio sigue siendo válido como una aproximación). y así obtener un vector "menos falso" como se sugiere.

— Alecos Papadopoulos