¿Qué es la identificabilidad del modelo?

Sé que con un modelo que no es identificable, se puede decir que los datos son generados por múltiples asignaciones diferentes a los parámetros del modelo. Sé que a veces es posible restringir los parámetros para que todos sean identificables, como en el ejemplo de Cassella & Berger, segunda edición, sección 11.2.

Dado un modelo particular, ¿cómo puedo evaluar si es identificable o no?

identifiability

— Jack Tanner
fuente

Para la identificabilidad , estamos hablando de un parámetro $\theta$ (que podría ser un vector), que se extiende sobre un espacio de parámetros $\Theta$ , y una familia de distribuciones (por simplicidad, piense en PDF) indexados por $\theta$ que generalmente escribimos algo como . Por ejemplo, podría ser y $\{ f_{\theta}|\, \theta \in \Theta\}$ $\theta$ $\theta = \beta$ $f$ podría ser

lo que significaría que. Para que el modelo sea identificable, la transformación que asignaadebe seruno a uno. Dado un modelo en su regazo, la forma más directa de verificar esto es comenzar con la ecuación , (esta igualdad debería ser válida para (casi) todo elapoyo

f_{θ} (x) = \frac{1}{β} e^{- x / β}, x > 0, β > 0,

$f_{\theta}(x) = \frac{1}{\beta}\mathrm{e}^{-x/\beta}, \ x>0,\ \beta >0,$

Θ = (0, \infty)

$\Theta = (0,\infty)$

θ

$\theta$

f_{θ}

$f_{\theta}$

f_{θ_{1}} = f_{θ_{2}}

$f_{\theta_{1}} = f_{\theta_{2}}$

en el

x

$x$ ) e intentar usar álgebra (o algún otro argumento) para mostrar que tal ecuación implica que, de hecho,

θ_{1} = θ_{2}

$\theta_{1} = \theta_{2}$

Si tiene éxito con este plan, entonces su modelo es identificable; sigue con tu negocio. Si no lo hace, entonces su modelo no es identificable o necesita encontrar otro argumento. La intuición es la misma, independientemente: en un modelo identificable es imposible que dos parámetros distintos (que podrían ser vectores) den lugar a la misma función de probabilidad.

Esto tiene sentido, porque si, para datos fijos, dos parámetros únicos dan lugar a la misma probabilidad, entonces sería imposible distinguir entre los dos parámetros candidatos basándose solo en los datos. Sería imposible identificar el parámetro verdadero, en ese caso.

Para el ejemplo anterior, la ecuación es $f_{\theta_{1}} = f_{\theta_{2}}$ para (casi) todos. Si tomamos registros de ambos lados obtenemos

\frac{1}{β_{1}} e^{- x / β_{1}} = \frac{1}{β_{2}} e^{- x / β_{2}},

$\frac{1}{\beta_{1}}\mathrm{e}^{-x/\beta_{1}} = \frac{1}{\beta_{2}}\mathrm{e}^{-x/\beta_{2}},$

x > 0

$x > 0$

para

, lo que implica la función lineal

- \ln β_{1} - \frac{x}{β_{1}} = - \ln β_{2} - \frac{x}{β_{2}}

$-\ln\,\beta_{1} - \frac{x}{\beta_{1}} = -\ln\,\beta_{2} - \frac{x}{\beta_{2}}$

x > 0

$x > 0$

- (\frac{1}{β_{1}} - \frac{1}{β_{2}}) x - (\ln β_{1} - \ln β_{2})

$-\left(\frac{1}{\beta_{1}} - \frac{1}{\beta_{2}}\right)x - (\ln\,\beta_{1} - \ln\,\beta_{2})$ es (casi) idénticamente cero. La única línea que hace tal cosa es la que tiene pendiente 0 e intersección y cero. Ojalá puedas ver el resto.

Por cierto, si puede observar mirando su modelo que no es identificable (a veces sí puede), entonces es común introducir restricciones adicionales para hacerlo identificable (como usted mencionó). Esto es similar a reconocer que la función no es uno a uno para en , pero es uno a uno si restringimos para que se encuentre dentro . En modelos más complicados, las ecuaciones son más difíciles pero la idea es la misma. $f(y) = y^{2}$ $y$ $[-1,1]$ $y$ $[0,1]$

(+1) Una explicación agradable, integral y realista. Las analogías que dibujas aclaran los conceptos.

— cardenal

Ciertamente respondiste la pregunta que hice, pero soy demasiado novato para entender realmente tu respuesta. Si conoce una explicación que sea mejor para un novato, hágamelo saber.

— Jack Tanner

@ cardinal, gracias. A Jack, de acuerdo, ya veo. Qué tal esto: si hay algo más arriba que aún no está claro, y si me lo señalas, entonces puedo tratar de aclararlo un poco más. O, si lo prefiere, podría escribir otra pregunta que solicite una explicación "laica" o ejemplos de estas ideas. Creo que es justo decir que la identificabilidad es un tema que generalmente surge después del típico período introductorio de estudio, por lo que si desea proporcionar un contexto de por qué se encuentra con esto ahora, podría ayudar a los posibles respondedores.

y_{yo j} = μ + α_{1} + α_{2} + ... + α_{k} + ε_{yo}

$y_{ij}=\mu+\alpha_1+\alpha_2+\ldots+\alpha_k+\varepsilon_i$

$\Sigma$ $\Sigma$ $\Sigma$

$\Sigma$ incluso para modelos ligeramente complicados.

Si está haciendo un problema de máxima probabilidad, entonces sabe que la matriz de covarianza asintótica de sus estimaciones es igual a la inversa de la información de los pescadores evaluada en el MLE. Por lo tanto, verificar la matriz de información del pescador para la singularidad (aproximada) también es una forma razonable de evaluar la identificabilidad. Esto también funciona cuando la información teórica del pescador es difícil de calcular porque a menudo es posible aproximar numéricamente con mucha precisión un estimador consistente de la matriz de información del pescador, por ejemplo, estimando el producto externo esperado de la función de puntuación por el producto externo promedio observado .

$\Sigma$

— Macro
fuente

(+1) Bien hecho. Ni siquiera había pensado abordar esta pregunta desde esa dirección.

Una razón por la cual la idea de calcular una matriz de covarianza basada en datos simulados es especialmente clara, es que uno debe simular los datos de todos modos para hacer una verificación Cook-Gelman-Rubin .

— Jack Tanner el