Preguntas etiquetadas con loss-functions

Una función utilizada para cuantificar la diferencia entre los datos observados y los valores pronosticados según un modelo. La minimización de las funciones de pérdida es una forma de estimar los parámetros del modelo.

5
¿Qué función de pérdida para tareas de clasificación multi-clase y multi-etiqueta en redes neuronales?
Estoy entrenando una red neuronal para clasificar un conjunto de objetos en n-clases. Cada objeto puede pertenecer a múltiples clases al mismo tiempo (multi-clase, multi-etiqueta). Leí que para problemas de varias clases generalmente se recomienda usar softmax y entropía cruzada categórica como la función de pérdida en lugar de mse …

3
Aprendizaje automático: ¿Debo usar una entropía cruzada categórica o una pérdida de entropía cruzada binaria para las predicciones binarias?
En primer lugar, me di cuenta de que si necesito realizar predicciones binarias, tengo que crear al menos dos clases a través de una codificación en caliente. ¿Es esto correcto? Sin embargo, ¿es la entropía cruzada binaria solo para predicciones con una sola clase? Si tuviera que usar una pérdida …


2
Función de costo en regresión lineal de MCO
Estoy un poco confundido con una conferencia sobre regresión lineal dada por Andrew Ng en Coursera sobre el aprendizaje automático. Allí, le dio una función de costo que minimiza la suma de cuadrados como: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Entiendo de dónde viene el . Creo que lo hizo para …


4
¿Qué función de pérdida es correcta para la regresión logística?
Leí sobre dos versiones de la función de pérdida para regresión logística, ¿cuál de ellas es correcta y por qué? De Machine Learning , Zhou ZH (en chino), con :β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 De mi curso universitario, con …

5
Cómo lidiar con datos jerárquicos / anidados en el aprendizaje automático
Explicaré mi problema con un ejemplo. Suponga que desea predecir el ingreso de un individuo dados algunos atributos: {Edad, Sexo, País, Región, Ciudad}. Tienes un conjunto de datos de entrenamiento como este train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
Aproximación de la función de pérdida XGBoost con la expansión Taylor
Como ejemplo, tome la función objetivo del modelo XGBoost en la iteración :ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) donde es la función de pérdida, es la salida del árbol ' y es la regularización. Uno de los (muchos) pasos clave para el cálculo rápido es la aproximación:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), donde y son las derivadas …

3
¿Cuáles son los impactos de elegir diferentes funciones de pérdida en la clasificación para aproximar la pérdida 0-1?
Sabemos que algunas funciones objetivas son más fáciles de optimizar y otras son difíciles. Y hay muchas funciones de pérdida que queremos usar pero difíciles de usar, por ejemplo, pérdida 0-1. Entonces encontramos algunas funciones de pérdida de proxy para hacer el trabajo. Por ejemplo, usamos pérdida de bisagra o …


1
La pérdida de entrenamiento baja y sube de nuevo. ¿Que esta pasando?
Mi pérdida de entrenamiento baja y luego vuelve a subir. Es muy raro La pérdida de validación cruzada rastrea la pérdida de entrenamiento. Que esta pasando? Tengo dos LSTMS apilados de la siguiente manera (en Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', …

3
Gradiente de pérdida de bisagra
Estoy tratando de implementar un descenso de gradiente básico y lo estoy probando con una función de pérdida de bisagra, es decir, lhinge=max(0,1−y x⋅w)lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w}) . Sin embargo, estoy confundido sobre el gradiente de la pérdida de la bisagra. Tengo la impresión de que es ∂∂wlhinge={−y x0if …


2
¿Cómo diseñar e implementar una función de pérdida asimétrica para la regresión?
Problema En la regresión, generalmente se calcula el error cuadrado medio (MSE) para una muestra: MSE = 1norte∑i = 1norte( g( xyo) - gˆ( xyo) )2MSE=1norte∑yo=1norte(sol(Xyo)-sol^(Xyo))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 para medir la calidad de un predictor. En este momento estoy trabajando en un problema de regresión en …


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.