Estadísticas y Big Data shrinkage

3

¿Cuál es el lazo en el análisis de regresión?

Estoy buscando una definición no técnica del lazo y para qué se utiliza.

82 regression lasso regularization shrinkage

5

Visión unificada sobre la contracción: ¿cuál es la relación (si la hay) entre la paradoja de Stein, la regresión de cresta y los efectos aleatorios en modelos mixtos?

Considere los siguientes tres fenómenos. Paradoja de Stein: dados algunos datos de la distribución normal multivariada en , la media muestral no es un muy buen estimador de la media real. Se puede obtener una estimación con un error cuadrático medio menor si se reducen todas las coordenadas de la …

65 regression mixed-model ridge-regression shrinkage steins-phenomenon

5

¿Qué problema resuelven los métodos de contracción?

La temporada navideña me ha dado la oportunidad de acurrucarme junto al fuego con The Elements of Statistical Learning . Viniendo desde una perspectiva econométrica (frecuentista), tengo problemas para comprender los usos de los métodos de contracción, como la regresión de crestas, el lazo y la regresión de ángulo mínimo …

61 lasso ridge-regression shrinkage lars

3

¿Por qué la estimación de cresta se vuelve mejor que OLS al agregar una constante a la diagonal?

Entiendo que la estimación de regresión de cresta es la que minimiza la suma residual del cuadrado y una penalización en el tamaño deβββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Sin embargo, no entiendo completamente la importancia del hecho de que βridgeβridge\beta_\text{ridge} difiere de …

59 regression least-squares ridge-regression shrinkage

2

¿Por qué funciona la contracción?

Para resolver problemas de selección de modelo, varios métodos (LASSO, regresión de cresta, etc.) reducirán los coeficientes de las variables predictoras hacia cero. Estoy buscando una explicación intuitiva de por qué esto mejora la capacidad predictiva. Si el verdadero efecto de la variable fue realmente muy grande, ¿por qué no …

55 lasso regularization ridge-regression intuition shrinkage

6

¿Es inútil la regresión de cresta en altas dimensiones (

Considere un buen viejo problema de regresión con predictores ppp y tamaño de muestra nnorten . La sabiduría usual es que OLS estimador será overfit y generalmente será superado por la arista estimador de β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.Es estándar utilizar la validación cruzada para encontrar un …

50 cross-validation regularization overfitting ridge-regression shrinkage

2

¿Cuál es la fórmula R-cuadrado ajustada en lm en R y cómo debe interpretarse?

¿Cuál es la fórmula exacta utilizada en R lm() para el R cuadrado ajustado? ¿Cómo puedo interpretarlo? Fórmulas r-cuadrado ajustadas Parece que existen varias fórmulas para calcular el R cuadrado ajustado. Fórmula de Wherry:1 - ( 1 - R2) ( n - 1 )( n - v )1-(1-R2)(norte-1)(norte-v)1-(1-R^2)\frac{(n-1)}{(n-v)} Fórmula de …

35 r regression r-squared lm shrinkage

2

¿Es realmente necesaria la estandarización antes de Lasso?

He leído tres razones principales para estandarizar variables antes de algo como la Lassoregresión: 1) Interpretabilidad de coeficientes. 2) Capacidad para clasificar la importancia del coeficiente según la magnitud relativa de las estimaciones del coeficiente posterior a la contracción. 3) No hay necesidad de intercepción. Pero me pregunto sobre el …

28 normalization lasso standardization regularization shrinkage

1

¿Por qué glmnet utiliza una red elástica "ingenua" del papel original de Zou & Hastie?

El documento original de red elástica Zou & Hastie (2005) La regularización y la selección de variables a través de la red elástica introdujeron la función de pérdida neta elástica para la regresión lineal (aquí supongo que todas las variables están centradas y escaladas a la varianza unitaria): pero lo …

27 regression regularization glmnet elastic-net shrinkage

2

¿Ventajas de hacer "doble lazo" o realizar dos veces lazo?

Una vez escuché un método de usar el lazo dos veces (como un lazo doble) en el que realizas un lazo en el conjunto original de variables, por ejemplo, S1, obtienes un conjunto disperso llamado S2 y luego vuelves a realizar el lazo en el conjunto S2 para obtener el …

26 regression lasso regularization shrinkage lars

3

LASSO con términos de interacción: ¿está bien si los efectos principales se reducen a cero?

La regresión de LASSO reduce los coeficientes hacia cero, proporcionando así una selección de modelo efectiva. Creo que en mis datos hay interacciones significativas entre covariables nominales y continuas. No necesariamente, sin embargo, son los 'efectos principales' del verdadero modelo significativo (distinto de cero). Por supuesto, no sé esto ya …

25 machine-learning lasso glmnet shrinkage penalized

5

Motivo para no reducir el término de sesgo (intercepción) en la regresión

Para un modelo lineal , el término de contracción siempre es .y=β0+xβ+εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP(β)P(β)P(\beta) ¿Cuál es la razón por la que no término de sesgo (intercepción) ? ¿Deberíamos reducir el término de sesgo en los modelos de redes neuronales?β0β0\beta_0

21 regression neural-networks ridge-regression intercept shrinkage

4

¿Cuáles son los valores correctos para precisión y recuperación en casos extremos?

La precisión se define como: p = true positives / (true positives + false positives) ¿Es cierto que, como true positivesy false positivesenfoque 0, la precisión se aproxima a 1? La misma pregunta para recordar: r = true positives / (true positives + false negatives) Actualmente estoy implementando una prueba …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

1

¿Por qué el estimador James-Stein se llama estimador de "contracción"?

He estado leyendo sobre el estimador James-Stein. Se define, en estas notas , como θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X He leído la prueba pero no entiendo la siguiente declaración: Geométricamente, el estimador James-Stein reduce cada componente de XXX hacia el origen ... ¿Qué significa exactamente "reducir cada componente de XXX hacia …

19 estimation terminology shrinkage steins-phenomenon

2

Estimador James-Stein: ¿Cómo calcularon Efron y Morris

Tengo una pregunta sobre el cálculo del factor de contracción de James-Stein en el artículo de Scientific American de 1977 de Bradley Efron y Carl Morris, "La paradoja de Stein en estadística" . Reuní los datos para los jugadores de béisbol y se dan a continuación: Name, avg45, avgSeason Clemente, …

18 estimation shrinkage steins-phenomenon

Preguntas etiquetadas con shrinkage