Estoy tratando de resumir lo que entendí hasta ahora en el análisis multivariado penalizado con conjuntos de datos de alta dimensión, y todavía me cuesta obtener una definición adecuada de la penalización de umbral suave frente a la penalización Lasso (o ).
Más precisamente, utilicé una regresión PLS dispersa para analizar la estructura de datos de 2 bloques que incluye datos genómicos ( polimorfismos de un solo nucleótido , donde consideramos la frecuencia del alelo menor en el rango {0,1,2}, considerado como una variable numérica) y fenotipos continuos (puntajes que cuantifican los rasgos de personalidad o asimetría cerebral, también tratados como variables continuas). La idea era aislar los predictores más influyentes (aquí, las variaciones genéticas en la secuencia de ADN) para explicar las variaciones fenotípicas interindividuales.
Inicialmente utilicé el paquete mixOmics R (anteriormente integrOmics
) que presenta regresión PLS penalizada y CCA regularizado . Mirando el código R, encontramos que la "escasez" en los predictores se induce simplemente seleccionando los mejores variables con las más altas cargas (en valor absoluto) en el i ésimo componente, i = 1, \ dots, k (el algoritmo es iterativo y calcula cargas de variables en k componentes, desinflando el bloque de predictores en cada iteración, consulte Sparse PLS: Selección de variables al integrar datos de Omics para obtener una descripción general). Por el contrario, el paquete spls es coautor de S. Keleş (veri i = 1 , ... , k kLa regresión parcial de mínimos cuadrados parciales para la reducción simultánea de dimensiones y la selección de variables , para una descripción más formal del enfoque emprendido por estos autores) implementa -penalización para penalización variable.
No es obvio para mí si existe una estricta "biyección", por decirlo así, entre la selección iterativa de características basada en el umbral suave y la regularización . Entonces mi pregunta es: ¿Hay alguna conexión matemática entre los dos?
Referencias
- Chun, H. y Kele ̧s, S. (2010), mínimos cuadrados parciales dispersos para la reducción simultánea de dimensiones y la selección de variables . Revista de la Royal Statistical Society: Serie B , 72 , 3–25.
- Le Cao, K.-A., Rossouw, D., Robert-Granie, C. y Besse, P. (2008), Un escaso PLS para la selección de variables al integrar datos de Omics . Aplicaciones estadísticas en genética y biología molecular , 7 , artículo 35.