Preguntas etiquetadas con ridge-regression

Un método de regularización para modelos de regresión que reduce los coeficientes hacia cero.

3
¿Cuándo debo usar lazo vs cresta?
Digamos que quiero estimar una gran cantidad de parámetros, y quiero penalizar algunos de ellos porque creo que deberían tener poco efecto en comparación con los demás. ¿Cómo decido qué esquema de penalización utilizar? ¿Cuándo es más apropiada la regresión de cresta? ¿Cuándo debo usar el lazo?



2
¿Por qué la regresión de cresta se llama "cresta", por qué es necesaria y qué sucede cuando va al infinito?
Estimación del coeficiente de regresión de cresta son los valores que minimizan laβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. Mis preguntas son: Si , vemos que la expresión anterior se reduce al RSS habitual. ¿Qué pasa si ? No entiendo la explicación del libro de texto del comportamiento de los coeficientes.λ=0λ=0\lambda …

5
Visión unificada sobre la contracción: ¿cuál es la relación (si la hay) entre la paradoja de Stein, la regresión de cresta y los efectos aleatorios en modelos mixtos?
Considere los siguientes tres fenómenos. Paradoja de Stein: dados algunos datos de la distribución normal multivariada en , la media muestral no es un muy buen estimador de la media real. Se puede obtener una estimación con un error cuadrático medio menor si se reducen todas las coordenadas de la …


3
¿Por qué la estimación de cresta se vuelve mejor que OLS al agregar una constante a la diagonal?
Entiendo que la estimación de regresión de cresta es la que minimiza la suma residual del cuadrado y una penalización en el tamaño deβββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Sin embargo, no entiendo completamente la importancia del hecho de que βridgeβridge\beta_\text{ridge} difiere de …

2
¿Por qué funciona la contracción?
Para resolver problemas de selección de modelo, varios métodos (LASSO, regresión de cresta, etc.) reducirán los coeficientes de las variables predictoras hacia cero. Estoy buscando una explicación intuitiva de por qué esto mejora la capacidad predictiva. Si el verdadero efecto de la variable fue realmente muy grande, ¿por qué no …

6
¿Es inútil la regresión de cresta en altas dimensiones (
Considere un buen viejo problema de regresión con predictores ppp y tamaño de muestra nnorten . La sabiduría usual es que OLS estimador será overfit y generalmente será superado por la arista estimador de β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.Es estándar utilizar la validación cruzada para encontrar un …

5
¿Cómo derivar la solución de regresión de cresta?
Tengo algunos problemas con la derivación de la solución para la regresión de crestas. Sé la solución de regresión sin el término de regularización: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Pero después de agregar el término L2 a la función de costo, ¿cómo es que la solución se convierte enλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX …






Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.