Estadísticas y Big Data regularization

1

Necesidad de centrar y estandarizar datos en regresión

Considere la regresión lineal con cierta regularización: Ej. Encuentre que minimice| El | A x - b | El | 2 + λ | El | x | El | 1xxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 Por lo general, las columnas de A están estandarizadas para tener una media cero y una norma …

16 regression lasso regularization standardization

2

¿Por qué la pérdida de la norma L2 tiene una solución única y la pérdida de la norma L1 tiene posiblemente múltiples soluciones?

http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ Si nos fijamos en la parte superior de esta publicación, el escritor menciona que la norma L2 tiene una solución única y la norma L1 tiene posiblemente muchas soluciones. Entiendo esto en términos de regularización, pero no en términos de usar la norma L1 o la norma L2 en …

16 regression lasso regularization

2

¿Por qué realmente funciona la contracción? ¿Qué tiene de especial 0?

Ya hay una publicación en este sitio que habla sobre el mismo problema: ¿Por qué funciona la contracción? Pero, aunque las respuestas son populares, no creo que la esencia de la pregunta se aborde realmente. Está bastante claro que la introducción de algún sesgo en la estimación conlleva una reducción …

15 regularization ridge-regression shrinkage

1

Regularización para modelos ARIMA

Soy consciente del tipo de regularización LASSO, cresta y red elástica en modelos de regresión lineal. Pregunta: ¿Se puede aplicar este tipo (o similar) de estimación penalizada al modelado ARIMA (con una parte MA no vacía)? En la construcción de modelos ARIMA, parece habitual considerar un orden de retraso máximo …

15 time-series arima lasso regularization ridge-regression

4

La prueba de fórmulas equivalentes de regresión de crestas

He leído los libros más populares sobre aprendizaje estadístico. 1- Los elementos del aprendizaje estadístico. 2- Una introducción al aprendizaje estadístico . Ambos mencionan que la regresión de crestas tiene dos fórmulas que son equivalentes. ¿Existe una prueba matemática comprensible de este resultado? También pasé por Cross Validated , pero …

15 regression lasso regularization ridge-regression lagrange-multipliers

3

¿Regularización y escalado de funciones en el aprendizaje en línea?

Digamos que tengo un clasificador de regresión logística. En el aprendizaje por lotes normal, tendría un término regularizador para evitar el sobreajuste y mantener mis pesos pequeños. También normalizaría y escalaría mis características. En un entorno de aprendizaje en línea, obtengo un flujo continuo de datos. Hago una actualización de …

15 machine-learning normalization regularization online

1

¿Qué método de comparación múltiple usar para un modelo lmer: lsmeans o glht?

Estoy analizando un conjunto de datos utilizando un modelo de efectos mixtos con un efecto fijo (condición) y dos efectos aleatorios (participante debido al diseño del sujeto y al par). El modelo se ha generado con el lme4paquete: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). A continuación, realicé una prueba de razón de probabilidad de este …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

1

¿Cuál es el más pequeño que da un componente 0 en el lazo?

Defina la estimación del lazo donde la i ^ {th} fila x_i \ in \ mathbb {R} ^ p de la matriz de diseño X \ in \ mathbb {R} ^ {n \ times p} es un vector de covariables para explicar la respuesta estocástica y_i (para i = 1, …

14 lasso regularization

3

¿Cómo encontrar coeficientes de regresión en regresión de cresta?

En la regresión de cresta, la función objetivo a minimizar es:RSS+λ∑β2j.RSS+λ∑βj2.\text{RSS}+\lambda \sum\beta_j^2. ¿Se puede optimizar esto utilizando el método multiplicador de Lagrange? ¿O es una diferenciación directa?

14 regression regularization ridge-regression

4

Normas - ¿Qué tiene de especial?

Una norma es única (al menos en parte) porque está en el límite entre no convexo y convexo. Una norma es la norma convexa 'más escasa' (¿verdad?).L1L1L_1p=1p=1p=1L1L1L_1 Entiendo que la norma euclidiana tiene raíces en la geometría y tiene una interpretación clara cuando las dimensiones tienen las mismas unidades. Pero …

13 regression regularization sparse

1

Solución de forma cerrada al problema de lazo cuando la matriz de datos es diagonal

\newcommand{\diag}{\operatorname{diag}}Tenemos el problema: suponiendo que: \ sum_ {i = 1} ^ nx_ix_i ^ T = \ diag (\ sigma_1 ^ 2, ..., \ sigma_d ^ 2).minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). ¿Existe una solución de forma cerrada en este caso? Tengo eso: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right), y creo que la respuesta es …

13 mathematical-statistics lasso computational-statistics regularization

1

Prevención de sobreajuste de LSTM en pequeños conjuntos de datos

Estoy modelando 15000 tweets para la predicción de sentimientos usando un LSTM de una sola capa con 128 unidades ocultas usando una representación similar a word2vec con 80 dimensiones. Obtengo una precisión de descenso (38% con aleatorio = 20%) después de 1 época. Más entrenamiento hace que la precisión de …

13 deep-learning regularization overfitting lstm

1

Descomposición de varianza sesgada

En la sección 3.2 de Reconocimiento de patrones y Aprendizaje automático de Bishop , analiza la descomposición de la variación de sesgo, indicando que para una función de pérdida al cuadrado, la pérdida esperada puede descomponerse en un término de sesgo al cuadrado (que describe qué tan lejos están las …

13 self-study variance bias regularization loss-functions

1

Regresión logística bayesiana regularizada en JAGS

Hay varios documentos matemáticos que describen el lazo bayesiano, pero quiero probar el código JAGS correcto que puedo usar. ¿Alguien podría publicar código BUGS / JAGS de muestra que implemente la regresión logística regularizada? Cualquier esquema (L1, L2, Elasticnet) sería genial, pero se prefiere Lasso. También me pregunto si hay …

13 bayesian logistic lasso jags regularization

3

¿GLMNET o LARS para calcular las soluciones LASSO?

Me gustaría obtener los coeficientes para el problema LASSO ||Y−Xβ||+λ||β||1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. El problema es que las funciones glmnet y lars dan respuestas diferentes. Para la función glmnet pido los coeficientes de en lugar de solo λ , pero aún obtengo respuestas diferentes.λ/||Y||λ/||Y||\lambda/||Y||λλ\lambda ¿Se espera esto? ¿Cuál es la relación entre …

13 r machine-learning regression lasso regularization

Preguntas etiquetadas con regularization