Selección de características en un modelo lineal generalizado jerárquico bayesiano

8

Estoy buscando estimar un GLM jerárquico pero con selección de características para determinar qué covariables son relevantes a nivel de población para incluir.

Supongamos que tengo grupos con observaciones y posibles covariables. Es decir, tengo una matriz de diseño de covariables , resultados . Los coeficientes en estas covariables son . $G$ $N$ $K$ $\boldsymbol{x}_{(N\cdot G) \times K}$ $\boldsymbol{y}_{(N\cdot G) \times 1}$ $\beta_{K \times 1}$

Supongamos que $Y$ ~ $Bernoulli(p(x,\beta))$

El siguiente es un GLM bayesiano jerárquico estándar con modelo de muestreo logit y coeficientes de grupo normalmente distribuidos.

L (y | x, β_{1}, . . . β_{G}) \propto \prod_{g = 1}^{G} \prod_{t = 1}^{N} {(Pr {j = 1 | p_{t}, β^{g}})}^{y_{g, t}} {(1 - Pr {j = 1 | p_{t}, β^{g}})}^{1 - y_{g, t}}

${\cal L}\left(\boldsymbol{y}|\boldsymbol{x},\beta_{1},...\beta_{G}\right)\propto\prod_{g=1}^{G}\prod_{t=1}^{N}\left(\Pr\{j=1|p_{t},\beta^{g}\}\right)^{y_{g,t}}\left(1-\Pr\{j=1|p_{t},\beta^{g}\}\right)^{1-y_{g,t}}$

β_{1}, . . . β_{sol} El | μ, Σ \sim^{yo yo re} {norte}_{re} (μ, Σ)

$\beta_{1},...\beta_{G}|\mu,\Sigma\sim^{iid}{\cal N}_{d}\left(\mu,\Sigma\right)$

μ El | Σ \sim norte (μ_{0 0}, {una}^{- 1} Σ)

$\mu|\Sigma\sim{\cal N}\left(\mu_{0},a^{-1}\Sigma\right)$

Σ \sim yo W (v_{0 0}, V_{0 0}^{- 1})

$\Sigma\sim{\cal IW}\left(v_{0},V_{0}^{-1}\right)$

Quiero modificar este modelo (o encontrar un documento que lo haga, o un trabajo que lo discuta) de tal manera que haya una selección de características nítidas (como en LASSO) en la dimensionalidad de $\beta$ .

(1) La forma más directa y más simple sería regularizar esto a nivel de la población para restringir esencialmente la dimensionalidad de y todos tienen la misma dimensión. $\mu$ $\beta$

(2) El modelo más matizado tendría una contracción a nivel de grupo, donde la dimensión de depende de la unidad jerárquica. $\beta$

Estoy interesado en resolver 1 y 2, pero mucho más importante es 1.

— Wolfsatthedoor
fuente

1

La forma en que abordaría (1) implicaría un modelo de espiga y losa, como:

$\beta_{g,k} = z_{k}m_{g,k}$

$z_k \sim Bern(p)$

$m_{g,k} \sim N(\mu, \Sigma)$

$\mu, \Sigma \sim NIW_{v_0}(\mu_0, V_0^{-1})$

Esta:

Conserva la flexibilidad en los 'del NIW antes de . $\beta$ $\mu, \Sigma$
Selección de modelos de variables para todos los grupos a la vez.
Fácilmente extensible al agregar un subíndice para grupo a y tener una beta común antes para cada ubicación . $z_{g,k}$ $k$

Por supuesto, creo que este es el tipo de problema donde hay varios enfoques válidos.

— conjeturas
fuente

2

La selección de características no es un gran objetivo para tener en un análisis. A menos que todos los predictores no estén correlacionados entre sí y el tamaño de su muestra sea inmenso, los datos no podrán decirle la respuesta de manera confiable. La especificación del modelo es más importante que la selección del modelo. Los detalles se encuentran en mis notas del curso RMS . Pero la contracción, sin selección de características (por ejemplo, cresta o estimación de máxima probabilidad penalizada ) puede ser una buena idea. Los modelos bayesianos jerárquicos son aún mejores porque permiten la inferencia estadística en el modelo reducido, mientras que perdemos la mayoría de las herramientas inferenciales en el mundo frecuentista después de la reducción. $L_{2}$

— Frank Harrell
fuente