¿Cómo se escala Lasso con el tamaño de la matriz de diseño?

Si tengo un diseño de matriz , donde es el número de observaciones de dimensión , lo que es la complejidad de la solución para $X\in\mathcal{R}^{n\times d}$ $n$ $d$ con LASSO, wrty? Creo que la respuesta debería referirse a cómounaiteración de LASSO se escala con estos parámetros, en lugar de cómo se escala el número de iteraciones (convergencia), a menos que sienta lo contrario. $\hat{\beta}=\text{argmin}_{\beta}\frac{1}{2n} ||X\beta-y||^{2} + \lambda||\beta||_{1}$ $n$ $d$

He leído esta pregunta anterior de complejidad de LASSO , pero parece estar en desacuerdo con la discusión sobre glmnet aquí y aquí . Soy consciente de que existen muchos algoritmos, incluido el enfoque GLMnet de glmnet, pero estoy escribiendo un documento sobre el reemplazo de un componente LASSO a un algoritmo padre y me gustaría incluir una discusión sobre la complejidad de LASSO en general, especialmente con y . También me gustaría saber la complejidad de glmnet en el caso básico no disperso, pero el documento de referencia es un poco confuso ya que la complejidad del algoritmo no es explícita. $d$ $n$

— rnoodle
fuente

No está claro por qué esta respuesta stats.stackexchange.com/a/190717/28666 (en el hilo al que se vinculó) no responde a su pregunta. ¿Puedes elaborar? ¿Qué está en desacuerdo con qué?

— ameba

La página 6 en [pdf] [1], establece "Así, un ciclo completo a través de todas las variables d cuesta

". Sin embargo, la pregunta que vincula a los estados

. ¿Me estoy perdiendo un bucle aquí para obtener la complejidad

? [1]: jstatsoft.org/article/view/v033i01

O (d n)

$O(dn)$

O (d^{2} n)

$O(d^{2}n)$

d^{2}

$d^{2}$

— rnoodle

@amoeba El enlace que proporciona es para el algoritmo LARS. Quiero saber sobre el enfoque GLM.

— rnoodle

Las referencias,

para la regresión de ángulo mínimo y

para el descenso coordinado, son correctas. La diferencia es que (1) LARS encuentra una solución exacta en

(y lo hace atravesando todo el camino de

posible con una complejidad igual al problema OLS para todo el problema, que también se escala como

), mientras que (2) el descenso coordinado está haciendo "solo" un solo paso de aproximación en

O (d^{2} n)

$\mathcal{O}(d^2n)$

O (d n)

$\mathcal{O}(dn)$

O (d^{2} n)

$\mathcal{O}(d^2n)$

λ

$\lambda$

O (d^{2} n)

$\mathcal{O}(d^2n)$

, convergente / 'descendente' más cerca del mínimo del problema LASSO. LARS usa

pasos. Con descenso coordinado ... nadie lo sabe.

O (d n)

$\mathcal{O}(dn)$

d

$d$

— Sextus Empiricus

Las respuestas de las referencias,

para la regresión de ángulo mínimo $\mathcal{O}(d^2n)$
para descenso coordinado $\mathcal{O}(dn)$

son correctos

La diferencia es que

Las ecuaciones LARS se escriben en forma cerrada y encuentran una solución exacta

$O(d^2n)$

mientras

$\mathcal{O}(dn)$

$d$ $\mathcal{O}((d-k)n+k^2)$ $d-k$ $k$

$d^2n$ $d$ $d$ $d>>100$ $d=100$

Escalar LARS es un problema que involucra complejidad computacional. El descenso de coordenadas de escala es un problema que involucra complejidad computacional y convergencia.

— Sexto empírico
fuente