Preguntas etiquetadas con optimization

Use esta etiqueta para cualquier uso de optimización dentro de las estadísticas.


3
Descenso de gradiente por lotes versus descenso de gradiente estocástico
Supongamos que tenemos un conjunto de entrenamiento para . Supongamos también que ejecutamos algún tipo de algoritmo de aprendizaje supervisado en el conjunto de entrenamiento. Las hipótesis se representan como . Necesitamos encontrar los parámetros que minimicen la "distancia" entre y . Deje(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,metroi = 1, \dots, mhθ( x( i …

6
¿Es posible entrenar una red neuronal sin propagación hacia atrás?
Muchos libros y tutoriales de redes neuronales dedican mucho tiempo al algoritmo de retropropagación, que es esencialmente una herramienta para calcular el gradiente. Supongamos que estamos construyendo un modelo con ~ 10K parámetros / pesos. ¿Es posible ejecutar la optimización usando algunos algoritmos de optimización sin gradiente? Creo que calcular …

2
función de activación de tanh vs función de activación sigmoidea
La función de activación de tanh es: tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 Donde σ(x)σ(x)\sigma(x) , la función sigmoide, se define como: σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} . Preguntas: ¿Realmente importa entre usar esas dos funciones de activación (tanh vs. sigma)? ¿Qué …



5
¿Cuál es una explicación intuitiva de cómo PCA pasa de un problema geométrico (con distancias) a un problema de álgebra lineal (con vectores propios)?
He leído mucho sobre PCA, incluidos varios tutoriales y preguntas (como este , este , este y este ). El problema geométrico que PCA está tratando de optimizar es claro para mí: PCA trata de encontrar el primer componente principal minimizando el error de reconstrucción (proyección), que maximiza simultáneamente la …




1
Redes neuronales: impulso de cambio de peso y decadencia de peso
Momentum se usa para disminuir las fluctuaciones en los cambios de peso en iteraciones consecutivas:αα\alpha dondeE(w)es la función de error,w- el vector de pesos,η- tasa de aprendizaje.Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E(w)E(w)E({\bf w})ww{\bf w}ηη\eta La disminución de peso penaliza los cambios de peso:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial …



3
Comparación de SVM y regresión logística
¿Alguien puede darme alguna intuición sobre cuándo elegir SVM o LR? Quiero entender la intuición detrás de cuál es la diferencia entre los criterios de optimización para aprender el hiperplano de los dos, donde los objetivos respectivos son los siguientes: SVM: intente maximizar el margen entre los vectores de soporte …

5
¿Puedes sobreajustar entrenando algoritmos de aprendizaje automático usando CV / Bootstrap?
Esta pregunta puede ser demasiado abierta para obtener una respuesta definitiva, pero espero que no. Los algoritmos de aprendizaje automático, como SVM, GBM, Random Forest, etc., generalmente tienen algunos parámetros libres que, más allá de alguna guía práctica, deben ajustarse a cada conjunto de datos. Esto generalmente se hace con …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.