Estadísticas y Big Data optimization

4

¿Por qué usar la regularización en la regresión polinómica en lugar de disminuir el grado?

Al hacer la regresión, por ejemplo, dos hiperparámetros para elegir son a menudo la capacidad de la función (por ejemplo, el mayor exponente de un polinomio) y la cantidad de regularización. Lo que me confunde es, ¿por qué no elegir una función de baja capacidad y luego ignorar cualquier regularización? …

32 regression machine-learning optimization regularization polynomial

1

Función objetivo de PCA: ¿cuál es la conexión entre maximizar la varianza y minimizar el error?

El algoritmo PCA se puede formular en términos de la matriz de correlación (suponga que los datos XXX ya se han normalizado y solo estamos considerando la proyección en la primera PC). La función objetivo se puede escribir como: maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. Esto está …

32 pca optimization

6

¿Por qué no usar la tercera derivada para la optimización numérica?

Si los hessianos son tan buenos para la optimización (ver, por ejemplo, el método de Newton ), ¿por qué detenerse allí? ¿Vamos a usar las derivadas tercera, cuarta, quinta y sexta? Por qué no?

29 optimization gradient-descent hessian

1

Aproximación de la función de pérdida XGBoost con la expansión Taylor

Como ejemplo, tome la función objetivo del modelo XGBoost en la iteración :ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) donde es la función de pérdida, es la salida del árbol ' y es la regularización. Uno de los (muchos) pasos clave para el cálculo rápido es la aproximación:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), donde y son las derivadas …

28 optimization loss-functions boosting xgboost taylor-series

1

Calcular la repetibilidad de los efectos de un modelo más antiguo

Acabo de encontrar este artículo , que describe cómo calcular la repetibilidad (también conocida como confiabilidad, también conocida como correlación intraclase) de una medición a través del modelado de efectos mixtos. El código R sería: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

¿Pueden los grados de libertad ser un número no entero?

Cuando uso GAM, me da un DF residual de 26.626.626.6 (última línea en el código). Qué significa eso? Yendo más allá del ejemplo de GAM, en general, ¿puede el número de grados de libertad ser un número no entero? > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

¿Cuáles son los impactos de elegir diferentes funciones de pérdida en la clasificación para aproximar la pérdida 0-1?

Sabemos que algunas funciones objetivas son más fáciles de optimizar y otras son difíciles. Y hay muchas funciones de pérdida que queremos usar pero difíciles de usar, por ejemplo, pérdida 0-1. Entonces encontramos algunas funciones de pérdida de proxy para hacer el trabajo. Por ejemplo, usamos pérdida de bisagra o …

27 machine-learning classification optimization loss-functions

6

¿Por qué estudiar la optimización convexa para el aprendizaje automático teórico?

Estoy trabajando en aprendizaje automático teórico, en aprendizaje de transferencia, para ser específico, para mi doctorado. Por curiosidad, ¿por qué debería tomar un curso sobre optimización convexa? ¿Qué conclusiones de la optimización convexa puedo usar en mi investigación sobre aprendizaje automático teórico?

27 machine-learning optimization convex transfer-learning

6

¿Por qué los pesos más pequeños resultan en modelos más simples en la regularización?

Completé el curso de Aprendizaje automático de Andrew Ng hace aproximadamente un año, y ahora estoy escribiendo mi exploración de matemáticas en la escuela secundaria sobre el funcionamiento de la regresión logística y las técnicas para optimizar el rendimiento. Una de estas técnicas es, por supuesto, la regularización. El objetivo …

27 regression machine-learning optimization regularization overfitting

1

Ejemplo paso a paso de diferenciación automática en modo inverso

No estoy seguro si esta pregunta pertenece aquí, pero está estrechamente relacionada con los métodos de gradiente en la optimización, que parece estar en el tema aquí. De todos modos, siéntase libre de migrar si cree que alguna otra comunidad tiene una mejor experiencia en el tema. En resumen, estoy …

27 optimization derivative tensorflow automatic-differentiation

1

¿Cuáles son las notaciones clásicas en estadística, álgebra lineal y aprendizaje automático? ¿Y cuáles son las conexiones entre estas notaciones?

Cuando leemos un libro, entender las anotaciones juega un papel muy importante para comprender los contenidos. Desafortunadamente, diferentes comunidades tienen diferentes convenciones de notación para la formulación del modelo y el problema de optimización. ¿Podría alguien resumir algunas anotaciones de formulación aquí y proporcionar posibles razones? Daré un ejemplo aquí: …

26 machine-learning probability self-study optimization

6

Para problemas convexos, ¿el gradiente en Descenso de gradiente estocástico (SGD) siempre apunta al valor extremo global?

Dada una función de costo convexo, usando SGD para la optimización, tendremos un gradiente (vector) en un cierto punto durante el proceso de optimización. Mi pregunta es, dado el punto en el convexo, ¿el gradiente solo apunta en la dirección en que la función aumenta / disminuye más rápido, o …

25 neural-networks optimization gradient-descent sgd convex

3

¿Cuál es la razón por la que el Adam Optimizer se considera robusto al valor de sus hiperparámetros?

Estaba leyendo sobre el optimizador Adam para Deep Learning y encontré la siguiente oración en el nuevo libro Deep Learning de Bengio, Goodfellow y Courville: En general, se considera que Adam es bastante robusto para la elección de hiperparámetros, aunque a veces la tasa de aprendizaje debe cambiarse del valor …

24 neural-networks deep-learning optimization hyperparameter adam

1

¿Cómo definir la condición de terminación para el descenso de gradiente?

En realidad, quería preguntarle cómo puedo definir la condición de terminación para el descenso de gradiente. ¿Puedo detenerlo en función del número de iteraciones, es decir, considerando los valores de los parámetros para, por ejemplo, 100 iteraciones? ¿O debería esperar de modo que la diferencia en los valores de los …

24 algorithms optimization gradient-descent

4

Estimación de máxima verosimilitud EM para la distribución de Weibull

Nota: estoy publicando una pregunta de un ex alumno mío que no puede publicar por su cuenta por razones técnicas. Dada una muestra de iid de una distribución de Weibull con pdf ¿hay una representación variable faltante útil y, por lo tanto, un algoritmo EM (expectativa-maximización) asociado que podría usarse …

24 optimization missing-data expectation-maximization weibull gumbel

Preguntas etiquetadas con optimization