Como cualquier métrica, una buena métrica es la mejor que la suposición "tonta", por casualidad, si tuviera que adivinar sin información sobre las observaciones. Esto se llama el modelo de solo intercepción en las estadísticas.
Esta pregunta "tonta" depende de 2 factores:
- el numero de clases
- el balance de clases: su prevalencia en el conjunto de datos observado
En el caso de la métrica LogLoss, una métrica "conocida" habitual es decir que 0,693 es el valor no informativo. Esta cifra se obtiene al predecir p = 0.5
cualquier clase de problema binario. Esto es válido solo para problemas binarios equilibrados . Porque cuando la prevalencia de una clase es del 10%, predecirá p =0.1
para esa clase, siempre. Esta será su línea de base de predicciones tontas, por casualidad, porque la predicción 0.5
será más tonta.
I. Impacto del número de clases N
en dumb-logloss:
En el caso equilibrado (cada clase tiene la misma prevalencia), cuando predices p = prevalence = 1 / N
para cada observación, la ecuación se vuelve simplemente:
Logloss = -log(1 / N)
log
siendo Ln
, logaritmo neperiano para quienes usan esa convención.
En el caso binario, N = 2
:Logloss = - log(1/2) = 0.693
Entonces, los Logosses tontos son los siguientes:
II Impacto de la prevalencia de clases en dumb-Logloss:
a. Caso de clasificación binaria
En este caso, predecimos siempre p(i) = prevalence(i)
, y obtenemos la siguiente tabla:
Entonces, cuando las clases están muy desequilibradas (prevalencia <2%), ¡ un logloss de 0.1 puede ser muy malo! Tal como una precisión del 98% sería malo en ese caso. Entonces quizás Logloss no sería la mejor métrica para usar
si. Caso de tres clases
"Dumb" -logloss dependiendo de la prevalencia - caso de tres clases:
Podemos ver aquí los valores de casos binarios balanceados y de tres clases (0.69 y 1.1).
CONCLUSIÓN
Un logloss de 0,69 puede ser bueno en un problema multiclase y muy malo en un caso sesgado binario.
Dependiendo de su caso, será mejor que se calcule la línea de base del problema para verificar el significado de su predicción.
En los casos sesgados, entiendo que logloss tiene el mismo problema que la precisión y otras funciones de pérdida: solo proporciona una medición global de su rendimiento. Por lo tanto, sería mejor que complemente su comprensión con métricas centradas en las clases minoritarias (recuperación y precisión), o tal vez no use logloss en absoluto.