Estadísticas y Big Data gradient-descent

2

¿Cómo actualiza el descenso de gradiente de minibatch los pesos para cada ejemplo en un lote?

Si procesamos digamos 10 ejemplos en un lote, entiendo que podemos sumar la pérdida para cada ejemplo, pero ¿cómo funciona la propagación hacia atrás en relación con la actualización de los pesos para cada ejemplo? Por ejemplo: Ejemplo 1 -> pérdida = 2 Ejemplo 2 -> pérdida = -2 Esto …

12 neural-networks gradient-descent backpropagation tensorflow

1

Gradiente para la función de pérdida logística

Haría una pregunta relacionada con este . Encontré un ejemplo de escritura de la función de pérdida personalizada para xgboost aquí : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") …

12 r machine-learning gradient-descent boosting loss-functions

2

¿Es posible evaluar GLM en Python / scikit-learn usando las distribuciones de Poisson, Gamma o Tweedie como la familia para la distribución de errores?

Intento aprender algo de Python y Sklearn, pero para mi trabajo necesito ejecutar regresiones que utilicen distribuciones de error de las familias Poisson, Gamma y especialmente Tweedie. No veo nada en la documentación sobre ellos, pero están en varias partes de la distribución R, por lo que me preguntaba si …

12 generalized-linear-model python scikit-learn gradient-descent tweedie-distribution

2

¿Las redes residuales están relacionadas con el aumento de gradiente?

Recientemente, vimos la aparición de la Red Neural Residual, en la que cada capa consta de un módulo computacional y una conexión de acceso directo que preserva la entrada a la capa, como la salida de la capa i-ésima muestra: y i + 1 = c i + y i …

11 machine-learning neural-networks deep-learning gradient-descent residual-networks

1

R / mgcv: ¿Por qué los productos tensoriales te () y ti () producen superficies diferentes?

El mgcvpaquete Rtiene dos funciones para ajustar las interacciones del producto tensorial: te()y ti(). Entiendo la división básica del trabajo entre los dos (ajustar una interacción no lineal versus descomponer esta interacción en efectos principales y una interacción). Lo que no entiendo es por qué te(x1, x2)y ti(x1) + ti(x2) …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

4

Cuándo usar la pendiente de gradiente vs Montecarlo como una técnica de optimización numérica

Cuando un conjunto de ecuaciones no puede resolverse analíticamente, entonces podemos usar un algoritmo de descenso de gradiente. Pero parece que también existe el método de simulación de Monte Carlo que puede usarse para resolver problemas que no tienen soluciones analíticas. ¿Cómo saber cuándo usar el descenso de gradiente y …

11 monte-carlo gradient-descent

2

¿Cómo entrenar un SVM a través de la propagación inversa?

Me preguntaba si era posible entrenar un SVM (digamos uno lineal, para facilitar las cosas) usando la propagación hacia atrás. Actualmente, estoy en un obstáculo, porque solo puedo pensar en escribir la salida del clasificador como f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b))f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b)) f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b)) Por lo tanto, cuando intentamos calcular …

10 machine-learning neural-networks svm gradient-descent backpropagation

1

¿Se puede entrenar un modelo de P (Y | X) a través del descenso de gradiente estocástico a partir de muestras de P (X) sin iid y muestras de P (Y | X)?

Cuando se entrena un modelo parametrizado (por ejemplo, para maximizar la probabilidad) a través del descenso de gradiente estocástico en algún conjunto de datos, se supone comúnmente que las muestras de entrenamiento se extraen de la distribución de datos de entrenamiento. Entonces, si el objetivo es modelar una distribución conjunta …

10 machine-learning conditional-probability reinforcement-learning gradient-descent

2

Cómo configurar el tamaño de mini lote en SGD en keras

Soy nuevo en Keras y necesito tu ayuda. Estoy entrenando una red neuronal en Keras y mi función de pérdida es la salida cuadrada b / n de la red y el valor objetivo. Quiero optimizar esto usando Gradient Descent. Después de pasar por algunos enlaces en la red, he …

10 neural-networks python gradient-descent keras sgd

4

Optimización de descenso de gradiente

Estoy tratando de entender la optimización de descenso de gradiente en algoritmos ML (aprendizaje automático). Tengo entendido que hay una función donde el costo es el objetivo de minimizar el error y - y . En un escenario donde los pesos w 1 , w 2 se están optimizando para …

9 optimization gradient-descent

2

¿Por qué mis pasos se hacen más pequeños cuando uso un tamaño de paso fijo en descenso de gradiente?

Supongamos que estamos haciendo un ejemplo de juguete en gradiente decente, minimizando una función cuadrática , usando un tamaño de paso fijo . ( )α = 0.03 A = [ 10 , 2 ; 2 , 3 ]XTA xxTAxx^TAxα = 0.03α=0,03\alpha=0.03A = [ 10 , 2 ; 2 , 3 …

9 r machine-learning optimization gradient-descent

1

¿Por qué el descenso de gradiente proximal en lugar de los métodos de subgradiente simples para Lasso?

Estaba pensando en resolver Lasso a través de métodos de subgrado de vainilla. Pero he leído personas que sugieren usar el descenso de gradiente proximal. ¿Alguien puede resaltar por qué se usa GD proximal en lugar de los métodos de subgradiente de vainilla para Lasso?

9 machine-learning optimization lasso gradient-descent

1

¿Cómo está aumentando el gradiente como el descenso del gradiente?

Estoy leyendo la útil entrada de Wikipedia sobre el aumento de gradiente ( https://en.wikipedia.org/wiki/Gradient_boosting ), y trato de entender cómo / por qué podemos aproximar los residuos por el paso de descenso más pronunciado (también llamado pseudo-gradiente ) ¿Alguien puede darme la intuición de cómo el descenso más empinado está …

9 self-study gradient-descent

2

Determine la tasa de aprendizaje óptima para el descenso de gradiente en regresión lineal

¿Cómo se puede determinar la tasa de aprendizaje óptima para el descenso de gradiente? Estoy pensando que podría ajustarlo automáticamente si la función de costo devuelve un valor mayor que en la iteración anterior (el algoritmo no convergerá), pero no estoy realmente seguro de qué nuevo valor debería tomar.

9 regression machine-learning gradient-descent

1

Descenso de gradiente o no para regresión lineal simple

Hay varios sitios web que describen el descenso de gradiente para encontrar los parámetros para la regresión lineal simple ( aquí hay uno de ellos). Google también lo describe en su nuevo curso (para el público) de ML. Sin embargo en Wikipedia , se proporcionan las siguientes fórmulas para calcular …

9 regression scikit-learn gradient-descent

Preguntas etiquetadas con gradient-descent