Función de pérdida de desviación binomial de Scikit

Esta es la función de pérdida de desviación binomial de GradientBoosting de scikit,

   def __call__(self, y, pred, sample_weight=None):
        """Compute the deviance (= 2 * negative log-likelihood). """
        # logaddexp(0, v) == log(1.0 + exp(v))
        pred = pred.ravel()
        if sample_weight is None:
            return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred))
        else:
            return (-2.0 / sample_weight.sum() *
                    np.sum(sample_weight * ((y * pred) - np.logaddexp(0.0, pred))))

Esta pérdida de funciones no es similar entre la clase con 0 y la clase con 1. ¿Alguien puede explicar cómo esto se considera correcto?

Por ejemplo, sin peso de muestra, la función de pérdida para la clase 1 es

-2(pred - log(1 + exp(pred))

vs para la clase 0

-2(-log(1+exp(pred))

La trama de estos dos no es similar en términos de costo. ¿Alguien puede ayudarme a entender?

— Kumaran
fuente

Se necesitan dos observaciones para comprender esta implementación.

La primera es que nopred es una probabilidad, es una probabilidad de registro.

El segundo es una manipulación algebraica estándar de la desviación binomial que va así. Sea las probabilidades de registro, lo que llama . Entonces la definición de la desviación binomial de una observación es (hasta un factor de ) $P$ sklearnpred $-2$

y \log (p) + (1 - y) \log (1 - p) = \log (1 - p) + y \log (\frac{p}{1 - p})

$y \log(p) + (1-y) \log(1 - p) = \log(1 - p) + y \log \left( \frac{p}{1-p} \right)$

Ahora observe que y (una comprobación rápida es sumarlos en tu cabeza, obtendrás ). Entonces $p = \frac{e^{P}}{1 + e^{P}}$ $1-p = \frac{1}{1 + e^{P}}$ $1$

\log (1 - p) = \log (\frac{1}{1 + e^{P}}) = - \log (1 + e^{P})

$\log(1-p) = \log \left( \frac{1}{1 + e^{P}} \right) = - \log(1 + e^{P})$

\log (\frac{p}{1 - p}) = \log (e^{P}) = P

$\log \left( \frac{p}{1-p} \right) = \log ( e^{P} ) = P$

Entonces, en conjunto, la desviación binomial es igual a

y P - \log (1 + e^{P})

$y P - \log( 1 + e^{P} )$

¿Cuál es la ecuación que sklearnestá usando?

— Matthew Drury
fuente

Gracias. Si lo reemplazo predcon probabilidades de registro, la función de pérdida es uniforme para ambas clases.

— Kumaran

Esta misma pregunta me surgió recientemente. Estuve mirando la página 10 de gradientboostedmodels.googlecode.com/git/gbm/inst/doc/gbm.pdf donde se enumera el gradiente de la desviación. Pero parece que el gradiente que muestran es para el log-lik no para el log-lik negativo. ¿Es correcto? ¿Parece coincidir con su explicación aquí?

— B_Miner

@B_Miner el enlace está roto

— GeneX

Muchas gracias @Matthew Drury

— Catbuilts