Preguntas etiquetadas con regularization

Inclusión de restricciones adicionales (generalmente una penalización por complejidad) en el proceso de ajuste del modelo. Se utiliza para evitar el sobreajuste / mejorar la precisión predictiva.

2
Explicación lúcida de la "estabilidad numérica de la inversión de la matriz" en la regresión de crestas y su papel en la reducción del sobreajuste
Entiendo que podemos emplear la regularización en un problema de regresión de mínimos cuadrados como w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] y que este problema tiene una solución de forma cerrada como: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. Vemos que en la segunda ecuación, la regularización es simplemente agregar λλ\lambda …

1
En la regresión lineal, ¿por qué la regularización penaliza también los valores de los parámetros?
Actualmente estoy aprendiendo regresión de cresta y estaba un poco confundido acerca de la penalización de modelos más complejos (o la definición de un modelo más complejo). Por lo que entiendo, la complejidad del modelo no se correlaciona necesariamente con el orden polinómico. Entonces: es un modelo más complejo que:2+3+4x2+5x3+6x42+3+4x2+5x3+6x4 …

1
Regresión lineal regular vs. regresión RKHS
Estoy estudiando la diferencia entre la regularización en la regresión RKHS y la regresión lineal, pero me resulta difícil comprender la diferencia crucial entre los dos. (xi,yi)(xi,yi)(x_i,y_i)f(⋅)f(⋅)f(\cdot)f(x)≈u(x)=∑i=1mαiK(x,xi),f(x)≈u(x)=∑i=1mαiK(x,xi),\begin{equation}f(x)\approx u(x)=\sum_{i=1}^m \alpha_i K(x,x_i),\end{equation}K(⋅,⋅)K(⋅,⋅)K(\cdot,\cdot)αmαm\alpha_mminα∈Rn1n∥Y−Kα∥2Rn+λαTKα,minα∈Rn1n‖Y−Kα‖Rn2+λαTKα,\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation} donde, con algún abuso de notación, la entrada i,ji,ji,j de la matriz del núcleo …

4
Regularización: ¿por qué multiplicar por 1 / 2m?
En las notas de la semana 3 de la clase Coursera Machine Learning de Andrew Ng , se agrega un término a la función de costos para implementar la regularización: J+(θ)=J(θ)+λ2m∑j=1nθ2jJ+(θ)=J(θ)+λ2m∑j=1nθj2J^+(\theta) = J(\theta) + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2 Las notas de la conferencia dicen: También podríamos regularizar todos nuestros parámetros theta …

1
¿Aplicando la regresión de cresta para un sistema de ecuaciones subdeterminado?
Cuando , el problema de mínimos cuadrados que impone una restricción esférica en el valor de se puede escribir como para un sistema sobredeterminado. \ | \ cdot \ | _2 es la norma euclidiana de un vector.y=Xβ+ey=Xβ+ey = X\beta + eδδ\deltaββ\betamin ∥y−Xβ∥22s.t. ∥β∥22≤δ2min⁡ ‖y−Xβ‖22s.t.⁡ ‖β‖22≤δ2\begin{equation} \begin{array} &\operatorname{min}\ \| y …

1
¿Cómo comparar los eventos observados con los esperados?
Supongamos que tengo una muestra de frecuencias de 4 eventos posibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 y tengo las probabilidades esperadas de que ocurran mis eventos: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Con la suma de las …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
Calcular curva ROC para datos
Entonces, tengo 16 ensayos en los que estoy tratando de autenticar a una persona de un rasgo biométrico usando Hamming Distance. Mi umbral está establecido en 3.5. Mis datos están a continuación y solo la prueba 1 es un verdadero positivo: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
Ajuste regularizado a partir de datos resumidos: elección del parámetro
Siguiendo con mi pregunta anterior , la solución a las ecuaciones normales para la regresión de crestas viene dada por: β^λ=(XTX+λI)−1XTyβ^λ=(XTX+λI)−1XTy\hat{\beta}_\lambda = (X^TX+\lambda I)^{-1}X^Ty ¿Podría ofrecer alguna guía para elegir el parámetro de regularización ? Además, dado que la diagonal de crece con el número de observaciones , ¿debería también …

1
Técnicas para detectar sobreajuste
Tuve una entrevista de trabajo para un puesto de ciencia de datos. Durante la entrevista, me preguntaron qué debo hacer para asegurarme de que el modelo no se ajuste demasiado. Mi primera respuesta fue utilizar la validación cruzada para evaluar el rendimiento del modelo. Sin embargo, el entrevistador dijo que …

1
¿Son suficientes la detención temprana y el abandono escolar para regularizar la gran mayoría de las redes neuronales profundas en la práctica?
Hay tantas técnicas de regularización que no es práctico probar todas las combinaciones: l1 / l2 norma máxima abandonar parada temprana ... Parece que la mayoría de las personas están contentas con una combinación de abandono escolar y parada temprana: ¿hay casos en los que tenga sentido usar otras técnicas? …




1
Rango de lambda en regresión neta elástica
\def\l{|\!|} Dada la regresión neta elástica minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1\min_b \frac{1}{2}\l y - Xb \l^2 + \alpha\lambda \l b\l_2^2 + (1 - \alpha) \lambda \l b\l_1 ¿Cómo se puede elegir un rango apropiado de λλ\lambda para la validación cruzada? En el caso α=1α=1\alpha=1 (regresión de cresta) la fórmula dof=∑js2js2j+λdof=∑jsj2sj2+λ\textrm{dof} = \sum_j \frac{s_j^2}{s_j^2+\lambda} se …


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.