Un método general para crear soluciones dispersas es a través de la estimación MAP con una media normal cero antes con una varianza desconocida.
p(xi|σ2i)∼N(0,σ2i)
Si luego asigna un previo a que tiene un modo en cero, entonces el modo posterior generalmente es escaso. El surge de este enfoque al tomar una distribución de mezcla exponencial.σ2iL1
p(σ2i|λ)∼Expo(λ22)
Entonces obtienes
log[p(xi|λ)]=−λ|xi|+log[λ2]
Algunas alternativas son el doble pareto generalizado, medio cauchy, beta invertido. En cierto sentido, estos son mejores que el lazo porque no reducen los valores grandes. De hecho, estoy bastante seguro de que el doble pareto generalizado se puede escribir como una mezcla de exponenciales. Es decir, escribimos y luego colocamos una gamma anterior . Obtenemos:λ=λip(λi|αβ)
p(xi|αβ)=α2β(1+|xi|β)−(α+1)
Tenga en cuenta que he incluido constantes de normalización, ya que ayudan a elegir buenos parámetros globales. Ahora, si aplicamos la restricción de rango, entonces tenemos un problema más complicado, ya que necesitamos renormalizar sobre el simplex.
Otra característica genérica de las penalizaciones por inducción de la dispersión es que no son diferenciables en cero. Por lo general, esto se debe a que los límites izquierdo y derecho son de signo opuesto.
Esto se basa en el brillante trabajo de Nicolas Polson y James Scott sobre las representaciones de mezcla de medias de varianza que utilizan para desarrollar TIRLS, una extensión masiva de mínimos cuadrados a una clase muy grande de combinaciones de penalización por pérdida.
Como alternativa, puede usar un previo que se define en el simplex, pero tiene modos en las distribuciones marginales en cero. Un ejemplo es la distribución de dirichlet con todos los parámetros entre 0 y 1. La penalización implícita se vería así:
−∑i=1n−1(ai−1)log(xi)−(an−1)log(1−∑i=1n−1xi)
Donde . Sin embargo, debe tener cuidado al optimizar numéricamente ya que la penalización tiene singularidades. Un proceso de estimación más robusto es utilizar la media posterior. Aunque pierda la escasez exacta, obtendrá muchos medios posteriores que están cerca de cero.p0<ai<1