Estoy tratando de demostrar que la matriz de información observada evaluada en el estimador de máxima verosimilitud débilmente consistente (MLE), es un estimador débilmente consistente de la matriz de información esperada. Este es un resultado ampliamente citado, pero nadie da una referencia o una prueba (creo que he agotado las primeras 20 páginas de resultados de Google y mis libros de texto de estadísticas).
Usando una secuencia débilmente consistente de MLEs, puedo usar la ley débil de números grandes (WLLN) y el teorema de mapeo continuo para obtener el resultado que quiero. Sin embargo, creo que el teorema de mapeo continuo no se puede usar. En cambio, creo que la ley uniforme de grandes números (ULLN) necesita ser utilizada. ¿Alguien sabe de una referencia que tenga una prueba de esto? Tengo un intento en el ULLN pero lo omito por ahora por brevedad.
Pido disculpas por la longitud de esta pregunta, pero hay que introducir la notación. La notación es como sigue (mi prueba está al final).
Supongamos que tenemos una muestra iid de variables aleatorias con densidades , donde (aquí es solo una variable aleatoria general con la misma densidad que cualquiera de los miembros de la muestra). El vector Y = (Y_1, \ ldots, Y_N) ^ {T} es el vector de todos los vectores de muestra donde Y_ {i} \ in \ mathbb {R} ^ {n} para todos i = 1, \ ldots, N . El verdadero valor del parámetro de las densidades es \ theta_ {0} , y \ hat {\ theta} _ {N} (Y) es el estimador de máxima verosimilitud (MLE) débilmente consistente de \ theta_ {0}{ Y 1 , ... , Y N }
I ( θ ) = - E θ [ H θ ( log f ( ˜ Y | θ ) ]
donde H θ
I N ( θ ) = N ∑ i = 1 I y i ( θ ) ,
donde I y i = - E θ [ H θ ( log f ( Y i | θ ) ]
J ( θ ) = - H θ ( log f ( y | θ )
(Algunas personas demandan que la matriz se evalúe en θ
J N ( θ ) = ∑ N i = 1 J y i ( θ )
donde J y i ( θ ) = - H θ ( log f ( y i | θ )
Puedo probar la convergencia en la probabilidad del estimador a , pero no de a . Aquí está mi prueba hasta ahora;N - 1 J N ( θ ) I ( θ ) N - 1 J N ( θ N ( Y ) ) I ( θ 0 )
Ahora es elemento de , para cualquier . Si la muestra es iid, entonces, por la ley débil de números grandes (WLLN), el promedio de estos sumandos converge en probabilidad a . Así para todas las , y así . Desafortunadamente no podemos concluir simplemente( J N ( θ ) ) r s = - ∑ N i = 1 ( H θ ( log f ( Y i | θ ) ) r s
Cualquier ayuda en esto sería muy apreciada.