¿Cuál es la diferencia entre una "función de enlace" y una "función de enlace canónico" para GLM

65

¿Cuál es la diferencia entre los términos 'función de enlace' y 'función de enlace canónico'? Además, ¿hay alguna ventaja (teórica) de usar uno sobre el otro?

Por ejemplo, una variable de respuesta binaria se puede modelar usando muchas funciones de enlace como logit , probit , etc. Pero, logit aquí se considera la función de enlace "canónico".

logistic generalized-linear-model link-function

— pescado estable
fuente

10

Discuto ampliamente las funciones de enlace aquí: diferencia entre modelos logit y probit , centrándome en la regresión para una variable de respuesta binaria. Aunque solo un poco de esa discusión se centra en el significado de que una función de enlace sea 'canónica', puede ser útil leerla. Tenga en cuenta que para comprender la distinción b / t y las ventajas de una función de enlace canónico versus no canónico se requiere profundizar bastante en las matemáticas subyacentes al GLiM.

— gung - Restablece a Monica

68

Las respuestas anteriores son más intuitivas, por lo que intento más rigor.

¿Qué es un GLM?

$Y=(y,\mathbf{x})$ $y$ $p$ $\mathbf{x}=(x_1,\dots,x_p)$ $E(y)=\mu$ $i=1,\dots,n$ $y_i$

f (y_{i}; θ_{i}, ϕ) = \exp {[y_{i} θ_{i} - γ (θ_{i})] / ϕ + τ (y_{i}, ϕ)}

$f(y_i;\theta_i,\phi)=\exp\{[y_i\theta_i-\gamma(\theta_i)]/\phi+\tau(y_i,\phi)\}$

θ_{i}

$\theta_i$

ϕ

$\phi$

γ

$\gamma$

τ

$\tau$

n

$n$

p

$p$

x_{1}, \dots, x_{p}

$\mathbf{x}_1,\dots,\mathbf{x}_p$

η_{i} = β_{0} + β_{1} x_{i 1} + \dots + β_{p} x_{i p}

$\eta_i=\beta_0+\beta_1x_{i1}+\dots+\beta_px_{ip}$

θ_{i}

$\theta_i$

θ = (γ^{'})^{- 1} (μ)

$\theta=(\gamma')^{-1}(\mu)$

η

$\eta$

θ

$\theta$

μ

$\mu$

g (μ) = η or μ = g^{- 1} (η)

$g(\mu)=\eta\ \textrm{or}\ \mu=g^{-1}(\eta)$

$g(\cdot)$ $\mu$ $\eta$ $\theta$ $\eta \equiv\theta$ $g=(\gamma')^{-1}$

$X'y$ $\sum_i x_{ij} y_i$ $j = 1, \dots, p$ $\mu$

Por lo tanto, tienden a usarse por defecto. Sin embargo, tenga en cuenta que no existe una razón a priori por la cual los efectos en el modelo deberían ser aditivos en la escala dada por este o cualquier otro enlace.

— Momo
fuente

55

+1, esta es una muy buena respuesta, @Momo. Encontré algunas de las ecuaciones más difíciles de leer cuando fueron enterradas en los párrafos, así que las 'bloqueé' usando signos de dólar dobles (es decir, $ $). Espero que esté bien (si no, puede retroceder, con mis disculpas).

— gung - Restablece a Monica

1

@Momo, la pregunta original aquí incluye, sin embargo, lo que Wei preguntó, por lo que vale la pena señalar que aún no se ha respondido claramente.

— Glen_b

1

θ

$\theta$

η = θ

$\eta=\theta$

g (μ) = θ

$g(\mu)=\theta$

θ = (γ^{'})^{- 1} (μ)

$\theta=(\gamma')^{-1}(\mu)$

θ

$\theta$

θ \equiv μ

$\theta \equiv \mu$

g (.) = (γ^{'})^{- 1} (.)

$g(.)=(\gamma')^{-1}(.)$

1

γ^{'} (θ) = π = \frac{e x p (θ)}{1 + e x p (θ)}

$\gamma'(\theta) = \pi = \frac{exp(\theta)}{1+exp(\theta)}$

(γ^{'})^{- 1} (.) = logit(.)

$(\gamma')^{-1}(.) = \text{logit(.)}$

η = θ

$\eta = \theta$

g (.)

$g(.)$

θ = l o g i t (π) = η

$\theta = logit(\pi) = \eta$

θ

$\theta$

η

$\eta$ solo existe si usamos la función de enlace canónico.

— Druss2k

2

μ

$\mu$

θ

$\theta$

η \equiv θ

$\eta \equiv \theta$

16

Gung ha citado una buena explicación: el enlace canónico posee propiedades teóricas especiales de mínima suficiencia. Esto significa que puede definir un modelo logit condicional (que los economistas llaman un modelo de efecto fijo) al condicionar el número de resultados, pero no puede definir un modelo probit condicional, porque no hay suficientes estadísticas para usar con el enlace probit.

— StasK
fuente

¿Puedes explicar un poco sobre la suficiencia mínima? Según la explicación anterior, aún podemos definir un modelo probit, ¿verdad? Seguro que no será la función de enlace canónico, pero ¿cuál es el daño al usar una función de enlace no canónico?

— pikachuchameleon

9

Aquí hay un pequeño diagrama inspirado en la clase 18.650 del MIT que encuentro bastante útil ya que ayuda a visualizar las relaciones entre estas funciones. He usado la misma notación que en la publicación de @momo:

$\gamma(\theta)$
$g(\mu)$

$g$

El diagrama permite ir fácilmente de una dirección a otra, por ejemplo:

η = g (γ (θ))

$\eta = g \left( \gamma(\theta)\right)$

θ = γ^{' - 1} (g^{- 1} (η))

$\theta = \gamma'^{-1}\left( g^{-1}(\eta)\right)$

Función de enlace canónico

$g$

γ^{- 1} \circ g^{- 1} = {(g \circ γ^{'})}^{- 1} = I

$\gamma^{-1} \circ g^{-1}= \left( g \circ \gamma' \right)^{-1} = I$

θ = η

$\theta = \eta$

— Xavier Bourret Sicotte
fuente

1

Las respuestas anteriores ya han cubierto lo que quiero decir. Solo para aclarar algunos puntos como investigador del aprendizaje automático:

La función de enlace no es más que la inversa de la función de activación. Por ejemplo, logit es el inverso de sigmoide, probit es el inverso de la función de distribución acumulativa de Gauss.
$w^T x$ $w$ $x$

La discusión anterior no tiene nada que ver con la familia exponencial, pero se puede encontrar una buena discusión en el libro PRML de Christopher Bishop, Capítulo 4.3.6.

— Guojun Zhang
fuente