¿Cuáles son las desventajas de la probabilidad de perfil?

Considere un vector de parámetros , con el parámetro de interés y un parámetro molesto. $(\theta_1, \theta_2)$ $\theta_1$ $\theta_2$

Si es la probabilidad construido a partir de los datos , la probabilidad de perfil para se define como donde es el MLE de $L(\theta_1, \theta_2 ; x)$ $x$ $\theta_1$ $L_P(\theta_1 ; x) = L(\theta_1, \hat{\theta}_2(\theta_1) ; x)$ $\hat{\theta}_2(\theta_1)$ $\theta_2$ para un valor fijo de . $\theta_1$

Maximizar la probabilidad de perfil con respecto a conduce a misma estimación como la obtenida mediante la maximización de la probabilidad al mismo tiempo con respecto a y . $\bullet$ $\theta_1$ $\hat{\theta}_1$ $\theta_1$ $\theta_2$

Creo que la desviación estándar de también puede estimarse a partir de la segunda derivada de la probabilidad de perfil. $\bullet$ $\hat{\theta}_1$

La estadística de probabilidad para se puede escribir en términos de perfil de verosimilitud: $\bullet$ $H_0: \theta_1 = \theta_0$ . $LR = 2 \log( \tfrac{L_P(\hat{\theta}_1 ; x)}{L_P(\theta_0 ; x)})$

Entonces, parece que la probabilidad de perfil se puede usar exactamente como si fuera una probabilidad real. ¿Es realmente el caso? ¿Cuáles son los principales inconvenientes de ese enfoque? ¿Y qué hay del "rumor" de que el estimador obtenido de la probabilidad del perfil está sesgado (editar: incluso asintóticamente)?

maximum-likelihood likelihood profile-likelihood

— ocram
fuente

solo una nota, los estimadores de la probabilidad también pueden estar sesgados, el ejemplo clásico es la estimación de la varianza de probabilidad para la muestra normal.

— mpiktas

@mpiktas: Gracias por tu comentario. De hecho, el mle clásico también puede estar sesgado. Editaré la pregunta para aclarar las cosas.

— ocram

¿Cuál es el sesgo asintótico? ¿Estás hablando de estimadores no consistentes?

— mpiktas

@mpiktas: Sí, esto es lo que debería haber dicho ...

— ocram

La estimación de partir de la probabilidad de perfil es solo el MLE. Maximizar con respecto a para cada posible y luego maximizar con respecto a es lo mismo que maximizar con respecto a conjuntamente. $\theta_1$ $\theta_2$ $\theta_1$ $\theta_1$ $(\theta_1, \theta_2)$

La principal debilidad es que, si basa su estimación de la SE de de la curvatura del perfil de riesgo, que no está totalmente de contabilidad para la incertidumbre en . $\hat{\theta}_1$ $\theta_2$

McCullagh y Nelder, Modelos lineales generalizados, segunda edición , tiene una sección corta sobre la probabilidad de perfil (Sección 7.2.4, páginas 254-255). Ellos dicen:

[A] se pueden obtener conjuntos de confianza aproximados de la manera habitual ... tales intervalos de confianza a menudo son satisfactorios si [la dimensión de ] es pequeña en relación con la información total de Fisher, pero de lo contrario puede ser engañosa. Lamentablemente [la probabilidad de registro de perfil] no es una función de probabilidad de registro en el sentido habitual. Obviamente, su derivada no tiene media cero, una propiedad que es esencial para estimar ecuaciones. $\theta_2$

— Karl
fuente

Muchas gracias por su respuesta. Antes de aceptarlo, déjame preguntarte algo más. ¿Cuáles son las implicaciones de

E \frac{\partial l_{P} (θ_{1})}{\partial θ_{1}} \neq 0

$E \frac{\partial l_P(\theta_1)}{\partial \theta_1} \neq 0$

— ocram

Pregunta interesante, aunque requirió un viaje a la estantería (que debería haber hecho de todos modos). He agregado un poco a mi respuesta sobre este punto.

— Karl

Muchas gracias por la edición. Se dice que la propiedad (la puntuación evaluada en el valor del parámetro verdadero tiene media cero) es esencial para estimar ecuaciones. Pero aunque la probabilidad de registro del perfil no cumple con esa propiedad, sí produce el MLE. ¿Hay algo que extraño?

— ocram

Esa propiedad no es necesaria para proporcionar el MLE.

— Karl