¿Cómo entreno una regresión (logística) en R usando la función de pérdida L1?

Puedo entrenar una regresión logística al Rusar

glm(y ~ x, family=binomial(logit)))

pero, IIUC, esto optimiza la probabilidad de registro.

¿Hay alguna forma de entrenar el modelo utilizando la función de pérdida lineal ( ) (que en este caso es la misma que la distancia de variación total )? $L_1$

Es decir, dado un vector numérico y un bit (lógico) vector , Quiero construir un monotónica (de hecho, aumentar) la función tal quese minimiza $x$ $y$ $f$ $\sum |f(x)-y|$

Ver también

¿Cómo entreno una regresión logística en R usando la función de pérdida L1?

logistic

— sds
fuente

Lo que quieres no existe, y para ser franco, no tiene mucho sentido. Podemos analizar alternativas, pero debe indicar más a fondo qué está tratando de hacer. ¿Por qué quiere ajustar un modelo logístico con una pérdida L1?

— user603

@ user603: Porque quiero evaluar mi modelo usando TVD

— sds

Usted parece estar hablando de ajuste de una logística curva a los datos, en lugar de ajustar los datos distribuidos binomialmente-- es decir, una forma de regresión no lineal , pero utilizando en lugar de norma. De hecho, la función de pérdidasugiere que el máximo no es (si ese es el caso, hace referencia al engaño binomial GLM). Por otro lado, si realmente está restringido a 0-1, la función de pérdida no tiene sentido. ¿Puede dar detalles de su situación real por favor?

L_{1}

$L_1$

L_{2}

$L_2$

\sum | f (x) - y |

$\sum |f(x)-y|$

1

$1$

— Glen_b -Reinstate a Monica

Tenga en cuenta que la ayuda le pide que no publique la misma pregunta en varios sitios, sino que elija un solo sitio. Si más tarde cambia de opinión sobre qué sitio es mejor, márquelo para la atención del moderador y solicite que se mueva.

— Glen_b -Reinstate a Monica

@Glen_b: Creo que el "bit (lógico) vector y" implica una respuesta 0/1.

— sds

Respuestas:

Lo que quieres hacer no existe porque es, por falta de una mejor palabra, matemáticamente defectuoso.

Pero primero, destacaré por qué creo que las premisas de su pregunta son sólidas. Luego trataré de explicar por qué creo que las conclusiones que extraes de ellos se basan en un malentendido del modelo logístico y, finalmente, sugeriré un enfoque alternativo.

Voy a denotar sus observaciones (las letras más en negrilla denotan vectores) que se encuentran en espacio tridimensional (la primera entrada de es 1) con , y $\{(\pmb x_i,y_i)\}_{i=1}^n$ $n$ $p$ $\pmb x_i$ $p<n$ $y_i\in [0,1]$ es una función monótona de $f(\pmb x_i)= f(\pmb x_i'\pmb\beta)$ , digamos como lacurva logísticapara arreglar ideas. Por conveniencia, supondré que essuficientementegrande en comparación con . $\pmb x_i'\pmb\beta$ $n$ $p$

Tiene razón en que si tiene la intención de utilizar TVD como criterio para evaluar el modelo ajustado, entonces es razonable esperar que su ajuste optimice ese mismo criterio entre todos los posibles candidatos, en sus datos. Por lo tanto

β β^{*} = \underset{β β \in R^{p}}{\arg min} | | y y - f (x x_{i}^{'} β β) | |_{1}

$\pmb\beta^*=\underset{\pmb\beta\in\mathbb{R}^{p}}{\arg\min}\;\;\;\;\;||\pmb y-f(\pmb x_i'\pmb\beta)||_1$

El problema es el término de error : y si aplicamos (simplemente queremos que nuestro modelo sea asintóticamente imparcial ), entonces, debe ser heteroscedastic . Esto se debe a que puede tomar dos valores, 0 y 1. Por lo tanto, dado , también solo puede tomar dos valores: cuando , que ocurre con probabilidad y cuando $\epsilon_i=y_i-f(\pmb x_i'\pmb\beta)$ $E(\pmb\epsilon)=0$ $\epsilon_i$ $y_i$ $\pmb x_i$ $\epsilon_i$ $1-f(\pmb x_i'\pmb\beta)$ $y_i=1$ $f(\pmb x_i'\pmb\beta)$ $-f(\pmb x_i'\pmb\beta)$ $y_i=1$ , que ocurre con probabilidad . $1-f(\pmb x_i'\pmb\beta)$

Estas consideraciones juntas implican que:

var (ϵ ϵ) = E (ϵ ϵ^{2}) = (1 - f (x x^{'} β β))^{2} f (x x^{'} β β) + (- f (x x^{'} β β))^{2} (1 - f (x x^{'} β β)) = (1 - f (x x^{'} β β)) f (x x^{'} β β) = E (y y | x x) E (1 - y y | x x)

$\text{var}(\pmb\epsilon)=E(\pmb\epsilon^2)=(1-f(\pmb x'\pmb\beta))^2f(\pmb x'\pmb\beta)+(-f(\pmb x'\pmb\beta))^2(1-f(\pmb x'\pmb\beta))\\ \;\;\;\;\;\;\;\;\;\;\;\;\;=(1-f(\pmb x'\pmb\beta))f(\pmb x'\pmb\beta)=E(\pmb y|\pmb x)E(1-\pmb y|\pmb x)$

por lo tanto, no es constante sino que tiene forma de parábola cóncava y se maximiza cuando es tal que . $\text{var}(\pmb\epsilon)$ $\pmb x$ $E(y|\pmb x)\approx .5$

Esta heterocedasticidad inherente de los residuos tiene consecuencias . Implica, entre otras cosas, que al minimizar la función de pérdida , está asintóticamente parte de su muestra. Es decir, los ajustados no se ajustan a los datos en absoluto, sino solo la parte de los mismos que se agrupa alrededor de los lugares donde es tal que . A saber, estos son los puntos de datos menos informativos en su muestra : corresponden a aquellas observaciones para las cuales el componente de ruido es el más grande. Por lo tanto, su ajuste se tira hacia , por ejemplo, irrelevante. $l_1$ $\pmb\beta^*$ $\pmb x$ $E(\pmb y|\pmb x)\approx .5$ $\pmb\beta^*=\pmb\beta:f(\pmb x'\pmb\beta)\approx .5$

Una solución, como queda claro en la exposición anterior, es eliminar el requisito de imparcialidad. Una forma popular de sesgar el estimador (con alguna interpretación bayesiana adjunta) es incluir un término de contracción. Si volvemos a escalar la respuesta:

y_{i}^{+} = 2 (y_{i} - .5), 1 \leq i \leq n

$y^+_i=2(y_i-.5),1\leq i\leq n$

y, por conveniencia computacional, reemplace por otra función monótona - será conveniente que la secuela denote el primer componente del vector de parámetros como y los restantes ones - e incluya un término de contracción (por ejemplo, uno de la forma ), el problema de optimización resultante se convierte en: $f(\pmb x'\pmb\beta)$ $g(\pmb x,[c,\pmb\gamma])=\pmb x'[c,\pmb\gamma]$ $c$ $p-1$ $\pmb\gamma$ $||\pmb\gamma||_2$

[c^{*}, γ γ^{*}] = \underset{[[c, γ γ] \in R^{p}}{\arg min} \sum_{i = 1}^{n} max (0, 1 - y_{i}^{+} x x_{i}^{'} [[c, γ γ]) + \frac{1}{2} | | γ γ | |_{2}

$[c^*,\pmb\gamma^{*}]=\underset{\pmb[c,\pmb\gamma]\in\mathbb{R}^{p}}{\arg\min}\;\;\sum_{i=1}^n\max(0,1-y_i^+\pmb x_i'\pmb[c,\pmb\gamma])+\frac{1}{2}||\pmb\gamma||_2$

Tenga en cuenta que en este nuevo problema de optimización (también convexo), la penalización para una observación clasificada correctamente es 0 y crece linealmente con para una clasificación clasificada, como en el pérdida. La solución para este segundo problema de optimización son los famosos coeficientes lineales svm (con separación perfecta). A diferencia de , tiene sentido aprender estos de los datos con una penalización de tipo TVD ('tipo' debido al término de sesgo) . En consecuencia, esta solución está ampliamente implementada. Ver por ejemplo el paquete R LiblineaR . $\pmb x'\pmb[c,\gamma]$ $l_1$ $[c^*,\pmb\gamma^*]$ $\pmb\beta^*$ $[c^*,\pmb\gamma^{*}]$

— usuario603
fuente

Desearía poder darte más de 25 puntos :-)

— sds

@sds; gracias: fue una gran pregunta :) Volveré durante el día y completaré los detalles, corregiré algún error tipográfico.

— usuario603

No estoy seguro de por qué querría usar la pérdida L1 para algo limitado entre 0 y 1. Dependiendo de cuál sea su objetivo, es posible que desee considerar algo como la pérdida de bisagra, que es similar a la pérdida L1 en una dirección y plana en el otro.

En cualquier caso, el siguiente código debe hacer lo que ha pedido. Tenga en cuenta que la respuesta óptima es básicamente una función de paso.

set.seed(1)

# Fake data
x = seq(-1, 1, length = 100)
y = rbinom(100, plogis(x), size = 1) # plogis is the logistic function

# L1 loss
loss = function(y, yhat){
  sum(abs(y - yhat))
}

# Function to estimate loss associated with a given slope & intercept
fn = function(par){
  a = par[1]
  b = par[2]
  loss(y = y, yhat = plogis(a + b * x))
}

# Find the optimal parameters
par = optim(
  par = c(a = 0, b = 0),
  fn = fn
)$par

# Plot the results
plot(y ~ x)
curve(plogis(par[1] + par[2] * x), add = TRUE, n = 1000)

— David J. Harris
fuente

Puede usar el paquete glmnet para instalar modelos L1, L2. No se limita a la regresión logística sino que la incluye.

Aquí está la viñeta: http://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html

También hay un seminario web: https://www.youtube.com/watch?v=BU2gjoLPfDc

Liblinear es bueno, pero he encontrado que glmnet es más fácil de comenzar. Glmnet incluye una función que realiza la validación cruzada y selecciona un parámetro de regularización para usted en función de diferentes métricas, como el AUC.

Con respecto a la teoría, leería el artículo de tibshiarini sobre el lazo (regularización L1) y el capítulo sobre elementos de aprendizaje estadístico. http://statweb.stanford.edu/~tibs/lasso/lasso.pdf

Sobre la pérdida de registro, es solo para evaluar modelos. No es una función de pérdida para el ajuste del modelo.

— marbel
fuente