Intuitivamente hablando, el lazo grupal se puede preferir al lazo ya que nos proporciona un medio para incorporar (un cierto tipo de) información adicional en nuestra estimación del coeficiente verdadero . Como escenario extremo, teniendo en cuenta lo siguiente:β∗
Con , coloque como soporte de . Considere el estimador "oráculo" que es el lazo de grupo con dos grupos, uno el verdadero soporte y Uno el complemento. Deje que sea el valor más pequeño de que hace que . Debido a la naturaleza de la penalización de lazo de grupo, sabemos que en mueve de a (para algunos pequeñosy∼N(Xβ∗,σ2I)S={j:β∗j≠0}β∗
β^=argminβ∥y−Xβ∥22+λ(|S|1/2∥βS∥2+(p−|S|)1/2∥βSC∥2),
λmaxλβ^=0λλmaxλmax−ϵϵ>0 ), exactamente un grupo entrará en apoyo de , que se considera popularmente como una estimación para . Debido a nuestra agrupación, con alta probabilidad, el grupo seleccionado será , y habremos hecho un trabajo perfecto.
β^SS
En la práctica, no seleccionamos los grupos tan bien. Sin embargo, los grupos, a pesar de ser más finos que el escenario extremo anterior, aún nos ayudarán: la elección aún se haría entre un grupo de covariables verdaderas y un grupo de covariables falsas. Todavía estamos prestando fuerza.
Esto se formaliza aquí . En algunas condiciones, muestran que el límite superior del error de predicción del lazo del grupo es menor que el límite inferior del error de predicción del lazo simple. Es decir, demostraron que la agrupación hace que nuestra estimación sea mejor.
Para su segunda pregunta: la penalización de lazo (normal) es lineal por partes, y esto da lugar a la ruta de solución lineal por partes. Intuitivamente, en el caso de lazo grupal, la penalización ya no es lineal por partes, por lo que ya no tenemos esta propiedad. Aquí hay una gran referencia sobre la linealidad por partes de las rutas de solución . Vea su propuesta 1. Deje y . Muestran que la ruta de solución del lazo del grupo es lineal si y solo si es constante por partes. Por supuesto, no lo es, ya que nuestra penalización tiene una curvatura global.L(β)=∥y−Xβ∥22J(β)=∑g∈G|g|1/2∥βg∥2
(∇2L(β^)+λ∇2J(β^))−1∇J(β^)
J