Preguntas etiquetadas con regularization

Inclusión de restricciones adicionales (generalmente una penalización por complejidad) en el proceso de ajuste del modelo. Se utiliza para evitar el sobreajuste / mejorar la precisión predictiva.




5
¿Qué es la regularización en inglés simple?
A diferencia de otros artículos, encontré que la entrada de Wikipedia para este tema es ilegible para una persona que no es matemática (como yo). Comprendí la idea básica, que favoreces modelos con menos reglas. Lo que no entiendo es cómo pasas de un conjunto de reglas a un "puntaje …


2
¿Por qué funciona la contracción?
Para resolver problemas de selección de modelo, varios métodos (LASSO, regresión de cresta, etc.) reducirán los coeficientes de las variables predictoras hacia cero. Estoy buscando una explicación intuitiva de por qué esto mejora la capacidad predictiva. Si el verdadero efecto de la variable fue realmente muy grande, ¿por qué no …


6
¿Es inútil la regresión de cresta en altas dimensiones (
Considere un buen viejo problema de regresión con predictores ppp y tamaño de muestra nnorten . La sabiduría usual es que OLS estimador será overfit y generalmente será superado por la arista estimador de β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.Es estándar utilizar la validación cruzada para encontrar un …

6
¿Por qué no se verifica la multicolinealidad en las estadísticas modernas / aprendizaje automático?
En las estadísticas tradicionales, al construir un modelo, verificamos la multicolinealidad utilizando métodos como las estimaciones del factor de inflación de varianza (VIF), pero en el aprendizaje automático, en su lugar, utilizamos la regularización para la selección de características y no parecemos verificar si las características están correlacionadas en absoluto. …

3
Métodos de regularización para regresión logística.
La regularización utilizando métodos como Ridge, Lasso, ElasticNet es bastante común para la regresión lineal. Quería saber lo siguiente: ¿Son estos métodos aplicables para la regresión logística? Si es así, ¿hay alguna diferencia en la forma en que deben usarse para la regresión logística? Si estos métodos no son aplicables, …

1
Redes neuronales: impulso de cambio de peso y decadencia de peso
Momentum se usa para disminuir las fluctuaciones en los cambios de peso en iteraciones consecutivas:αα\alpha dondeE(w)es la función de error,w- el vector de pesos,η- tasa de aprendizaje.Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E(w)E(w)E({\bf w})ww{\bf w}ηη\eta La disminución de peso penaliza los cambios de peso:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial …

5
¿Cómo derivar la solución de regresión de cresta?
Tengo algunos problemas con la derivación de la solución para la regresión de crestas. Sé la solución de regresión sin el término de regularización: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Pero después de agregar el término L2 a la función de costo, ¿cómo es que la solución se convierte enλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX …




Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.