Premisa: esta puede ser una pregunta estúpida. Solo conozco las afirmaciones sobre las propiedades asintóticas de MLE, pero nunca estudié las pruebas. Si lo hiciera, tal vez no estaría haciendo estas preguntas, o tal vez me daría cuenta de que estas preguntas no tienen sentido ... así que por favor, cálmate :)
A menudo he visto declaraciones que dicen que el estimador MLE de los parámetros de un modelo es asintóticamente normal y eficiente. La declaración generalmente se escribe como
como
donde es el número de muestras, es información de Fisher y es el valor verdadero del parámetro (vector) . Ahora, dado que hay una referencia a un modelo verdadero, ¿significa esto que el resultado no se mantendrá si el modelo no es verdadero?
Ejemplo: supongamos que modelo la potencia de salida de una turbina eólica en función de la velocidad del viento más el ruido gaussiano aditivo
Sé que el modelo está equivocado, al menos por dos razones: 1) es realmente proporcional a la tercera potencia de y 2) el error no es aditivo, porque descuidé otros predictores que no están correlacionados con la velocidad del viento (también sé eso debería ser 0 porque a 0 velocidad del viento no se genera energía, pero eso no es relevante aquí). Ahora, supongamos que tengo una base de datos infinita de datos de potencia y velocidad del viento de mi turbina eólica. Puedo dibujar tantas muestras como quiera, de cualquier tamaño. Supongamos que dibujo 1000 muestras, cada una de tamaño 100, y calculo \ hat {\ boldsymbol {\ beta}} _ {100} , la estimación MLE de \ boldsymbol {\ beta} = (\ beta_0, \ beta_1, \ beta_2)(que según mi modelo sería la estimación de OLS). Por lo tanto, tengo 1000 muestras de la distribución de . Puedo repetir el ejercicio con . Como , ¿la distribución de tiende a ser asintóticamente normal, con la media y la varianza establecidas? ¿O el hecho de que el modelo es incorrecto invalida este resultado?
La razón por la que pregunto es que raramente (si alguna vez) los modelos son "verdaderos" en las aplicaciones. Si las propiedades asintóticas de MLE se pierden cuando el modelo no es verdadero, entonces podría tener sentido usar diferentes principios de estimación, que si bien son menos potentes en un entorno donde el modelo es correcto, pueden funcionar mejor que MLE en otros casos.
EDITAR : se observó en los comentarios que la noción de modelo verdadero puede ser problemática. Tenía en mente la siguiente definición: dada una familia de modelos indicada por el vector de parámetros , para cada modelo de la familia siempre puede escribir
simplemente definiendo como . Sin embargo, en general, el error no será ortogonal a , tendrá una media de 0 y no necesariamente tendrá la distribución asumida en la derivación del modelo. Si existe un valor tal que tiene estas dos propiedades, así como la distribución supuesta, diría que el modelo es verdadero. Creo que esto está directamente relacionado con decir que , porque el término de error en la descomposición
tiene las dos propiedades mencionadas anteriormente.