Para la regresión Lasso suponga que la mejor solución (error de prueba mínimo, por ejemplo) selecciona k características, para que \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lazo}, 0, ... 0 \ derecha) .k β l un s s o = ( β l un s s o 1 , β l un s s o 2 , . . . , β l una
Sabemos que es un estimación sesgada de , entonces, ¿por qué todavía tomamos como la solución final, en lugar de la más 'razonable' , donde es la estimación de LS del modelo parcial . ( denota las columnas de correspondientes a las características seleccionadas).
En resumen, ¿por qué usamos Lasso tanto para la selección de características como para la estimación de parámetros, en lugar de solo para la selección de variables (y dejar la estimación de las características seleccionadas a OLS)?
(Además, ¿qué significa que 'Lasso puede seleccionar como máximo características'? es el tamaño de la muestra).