He visto la siguiente justificación para la prueba de Wald de la hipótesis nula para un parámetro escalar . Cuando es el MLE para estimado a partir de una muestra independiente de tamaño , bajo la hipótesis nula tenemos en distribución como , donde es la información esperada para una sola observación, evaluada en . Entonces me parece que deberíamos usar la estadística de prueba
que será aproximadamente para grande . Sin embargo, parece ser más común escribir la estadística de Wald como
es decir, evaluar la información esperada en lugar de en . Mi pregunta es, considerando que necesitamos la distribución del estadístico de prueba debajo de nulo para realizar nuestra prueba de hipótesis, ¿no tiene más sentido tratar de estimar el error estándar debajo de nulo, es decir, estimar por ?