Estadísticas y Big Data optimization

8

¿Por qué el método de Newton no se usa ampliamente en el aprendizaje automático?

Esto es algo que me ha estado molestando por un tiempo, y no pude encontrar ninguna respuesta satisfactoria en línea, así que aquí va: Después de revisar un conjunto de conferencias sobre optimización convexa, el método de Newton parece ser un algoritmo muy superior al descenso de gradiente para encontrar …

132 machine-learning optimization gradient-descent hessian

3

Descenso de gradiente por lotes versus descenso de gradiente estocástico

Supongamos que tenemos un conjunto de entrenamiento para . Supongamos también que ejecutamos algún tipo de algoritmo de aprendizaje supervisado en el conjunto de entrenamiento. Las hipótesis se representan como . Necesitamos encontrar los parámetros que minimicen la "distancia" entre y . Deje(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,metroi = 1, \dots, mhθ( x( i …

101 optimization gradient-descent sgd

6

¿Es posible entrenar una red neuronal sin propagación hacia atrás?

Muchos libros y tutoriales de redes neuronales dedican mucho tiempo al algoritmo de retropropagación, que es esencialmente una herramienta para calcular el gradiente. Supongamos que estamos construyendo un modelo con ~ 10K parámetros / pesos. ¿Es posible ejecutar la optimización usando algunos algoritmos de optimización sin gradiente? Creo que calcular …

94 machine-learning neural-networks optimization backpropagation

2

función de activación de tanh vs función de activación sigmoidea

La función de activación de tanh es: tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 Donde σ(x)σ(x)\sigma(x) , la función sigmoide, se define como: σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} . Preguntas: ¿Realmente importa entre usar esas dos funciones de activación (tanh vs. sigma)? ¿Qué …

82 machine-learning neural-networks optimization cost-maximization

7

Por qué optimizar la probabilidad máxima de registro en lugar de la probabilidad

En la mayoría de las tareas de aprendizaje automático en las que puede formular alguna probabilidad que debería maximizarse, en realidad optimizaríamos la probabilidad de lugar de la probabilidad de algunos parámetros . Por ejemplo, en el entrenamiento de máxima verosimilitud, generalmente es el log-verosimilitud. Al hacer esto con algún …

66 probability optimization log-likelihood

7

Optimización cuando la función de costo es lenta para evaluar

El descenso de gradiente y muchos otros métodos son útiles para encontrar mínimos locales en las funciones de costos. Pueden ser eficientes cuando la función de costo se puede evaluar rápidamente en cada punto, ya sea numérica o analíticamente. Tengo lo que me parece una situación inusual. Cada evaluación de …

59 gradient-descent optimization bayesian-optimization

5

¿Cuál es una explicación intuitiva de cómo PCA pasa de un problema geométrico (con distancias) a un problema de álgebra lineal (con vectores propios)?

He leído mucho sobre PCA, incluidos varios tutoriales y preguntas (como este , este , este y este ). El problema geométrico que PCA está tratando de optimizar es claro para mí: PCA trata de encontrar el primer componente principal minimizando el error de reconstrucción (proyección), que maximiza simultáneamente la …

54 pca optimization linear-algebra intuition

4

¿Cuál es la diferencia entre el descenso de gradiente basado en el momento y el descenso de gradiente acelerado de Nesterov?

Entonces, el descenso de gradiente basado en el impulso funciona de la siguiente manera: v = s e l f. m o m e n t u m ∗ m - l r ∗ gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g donde es la actualización de peso anterior, y g es el gradiente actual con respecto …

48 optimization gradient-descent

1

Entendiendo que "casi todos los mínimos locales tienen un valor de función muy similar al óptimo global"

En una reciente publicación de blog de Rong Ge, se dijo que: Se cree que para muchos problemas, incluido el aprendizaje de redes profundas, casi todos los mínimos locales tienen un valor de función muy similar al óptimo global y, por lo tanto, encontrar un mínimo local es lo suficientemente …

46 machine-learning neural-networks optimization deep-learning

1

¿Cómo funciona el método Adam de descenso de gradiente estocástico?

Estoy familiarizado con los algoritmos básicos de descenso de gradiente para entrenar redes neuronales. He leído el documento que propone a Adam: ADAM: UN MÉTODO PARA LA OPTIMIZACIÓN ESTOCÁSTICA . Si bien definitivamente tengo algunas ideas (al menos), el documento parece tener un nivel demasiado alto para mí en general. …

45 neural-networks optimization gradient-descent adam

1

Redes neuronales: impulso de cambio de peso y decadencia de peso

Momentum se usa para disminuir las fluctuaciones en los cambios de peso en iteraciones consecutivas:αα\alpha dondeE(w)es la función de error,w- el vector de pesos,η- tasa de aprendizaje.Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E(w)E(w)E({\bf w})ww{\bf w}ηη\eta La disminución de peso penaliza los cambios de peso:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial …

41 neural-networks optimization regularization gradient-descent

6

Optimización práctica de hiperparámetros: búsqueda aleatoria versus cuadrícula

Actualmente estoy revisando la búsqueda aleatoria de Bengio y Bergsta para la optimización de hiperparámetros [1], donde los autores afirman que la búsqueda aleatoria es más eficiente que la búsqueda de cuadrícula para lograr un rendimiento aproximadamente igual. Mi pregunta es: ¿la gente aquí está de acuerdo con esa afirmación? …

41 machine-learning hyperparameter optimization

1

¿Por qué glmer no alcanza la máxima probabilidad (como se verifica aplicando más optimización genérica)?

Derivar numéricamente los MLE s de GLMM es difícil y, en la práctica, lo sé, no debemos usar la optimización de la fuerza bruta (por ejemplo, usarla optimde una manera simple). Pero para mi propio propósito educativo, quiero probarlo para asegurarme de que entiendo correctamente el modelo (vea el código …

37 r maximum-likelihood optimization lme4-nlme

3

Comparación de SVM y regresión logística

¿Alguien puede darme alguna intuición sobre cuándo elegir SVM o LR? Quiero entender la intuición detrás de cuál es la diferencia entre los criterios de optimización para aprender el hiperplano de los dos, donde los objetivos respectivos son los siguientes: SVM: intente maximizar el margen entre los vectores de soporte …

37 regression logistic svm optimization

5

¿Puedes sobreajustar entrenando algoritmos de aprendizaje automático usando CV / Bootstrap?

Esta pregunta puede ser demasiado abierta para obtener una respuesta definitiva, pero espero que no. Los algoritmos de aprendizaje automático, como SVM, GBM, Random Forest, etc., generalmente tienen algunos parámetros libres que, más allá de alguna guía práctica, deben ajustarse a cada conjunto de datos. Esto generalmente se hace con …

34 machine-learning cross-validation bootstrap optimization resampling

Preguntas etiquetadas con optimization