Preguntas etiquetadas con shrinkage

Inclusión de restricciones adicionales (generalmente una penalización por complejidad) en el proceso de ajuste del modelo. Se utiliza para evitar el sobreajuste / mejorar la precisión predictiva.

1
¿Bajo exactamente qué condiciones la regresión de cresta puede proporcionar una mejora sobre la regresión de mínimos cuadrados ordinarios?
La regresión de cresta estima los parámetros ββ\boldsymbol \beta en un modelo lineal by dondeß λ = ( X ⊤ X + λ I ) - 1 X ⊤ y , λy=Xβy=Xβ\mathbf y = \mathbf X \boldsymbol \betaβ^λ=(X⊤X+λI)−1X⊤y,β^λ=(X⊤X+λI)−1X⊤y,\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top …




4
Selección de penalización óptima para lazo
¿Hay resultados analíticos o documentos experimentales con respecto a la elección óptima del coeficiente del término de penalización ℓ1ℓ1\ell_1 ? Por óptimo , me refiero a un parámetro que maximiza la probabilidad de seleccionar el mejor modelo, o que minimiza la pérdida esperada. Pregunto porque a menudo no es práctico …

2
¿Qué es la contracción?
La palabra contracción se usa mucho en ciertos círculos. Pero lo que es la contracción, no parece haber una definición clara. Si tengo una serie temporal (o una colección de observaciones de algún proceso), ¿cuáles son las diferentes formas en que puedo medir algún tipo de contracción empírica en la …


2
Si la contracción se aplica de manera inteligente, ¿siempre funciona mejor para estimadores más eficientes?
Supongamos que tengo dos estimadores y que son estimadores consistentes del mismo parámetro y tal que con en el sentido psd. Por lo tanto, asintóticamente es más eficiente que . Estos dos estimadores se basan en diferentes funciones de pérdida.βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0n−−√(βˆ1−β0)→dN(0,V1),n−−√(βˆ2−β0)→dN(0,V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2)V1≤V2V1≤V2V_1 …


1
Estimador James-Stein con variaciones desiguales
Cada afirmación que encuentro del estimador de James-Stein supone que las variables aleatorias que se estiman tienen la misma varianza (y unidad). Pero todos estos ejemplos también mencionan que el estimador JS puede usarse para estimar cantidades sin nada que ver entre sí. El ejemplo de Wikipedia es la velocidad …

3
Cómo obtener el intervalo de confianza en el cambio de r-cuadrado poblacional
Por un simple ejemplo, suponga que hay dos modelos de regresión lineal Modelo 1 tiene tres predictores, x1a, x2b, yx2c El modelo 2 tiene tres predictores del modelo 1 y dos predictores adicionales x2ayx2b Hay una ecuación de regresión poblacional donde la varianza poblacional explicada es para el Modelo 1 …

4
¿Lazar el orden de un retraso?
Supongamos que tengo datos longitudinales de la forma (Tengo múltiples observaciones, esta es solo la forma de una sola). Estoy interesado en restricciones en . Una sin restricciones es equivalente a tomar Y_j = \ alpha_j + \ sum _ {\ ell = 1} ^ {j - 1} \ phi …

2
Distribución de partes 'sin mezclar' según el orden de la mezcla
Supongamos que tengo pares de observaciones dibujadas iid como para i = 1 , 2 , ... , n . Sea Z i = X i + Y i , y denote por Z i j el enésimo valor más grande observado de ZXi∼N(0,σ2x),Yi∼N(0,σ2y),Xi∼N(0,σx2),Yi∼N(0,σy2),X_i \sim \mathcal{N}\left(0,\sigma_x^2\right), Y_i \sim \mathcal{N}\left(0,\sigma_y^2\right),i=1,2,…,ni=1,2,…,ni=1,2,\ldots,nZi=Xi+Yi,Zi=Xi+Yi,Z_i = …

1
Prueba de permutación aleatoria para la selección de características
Estoy confundido sobre el análisis de permutación para la selección de características en un contexto de regresión logística. ¿Podría proporcionar una explicación clara de la prueba de permutación aleatoria y cómo se aplica a la selección de características? Posiblemente con algoritmo exacto y ejemplos. Finalmente, ¿cómo se compara con otros …

2
Selección de características en un modelo lineal generalizado jerárquico bayesiano
Estoy buscando estimar un GLM jerárquico pero con selección de características para determinar qué covariables son relevantes a nivel de población para incluir. Supongamos que tengo grupos con observaciones y posibles covariables. Es decir, tengo una matriz de diseño de covariables , resultados \ boldsymbol {y} _ {(N \ cdot …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.