Recientemente tuve que elegir una métrica para evaluar algoritmos de clasificación de múltiples etiquetas y llegué a este tema, que fue realmente útil. Aquí hay algunas adiciones a la respuesta de stpk, que fueron útiles para tomar una decisión.
- MAP se puede adaptar a problemas de múltiples etiquetas, a costa de una aproximación
- No es necesario calcular MAP en k, pero la versión de múltiples etiquetas puede no adaptarse cuando la clase negativa es preponderante
- MAP y (N) DCG pueden reescribirse como promedio ponderado de los valores de relevancia clasificados
Detalles
Centrémonos en la precisión promedio (AP) ya que la precisión promedio promedio (MAP) es solo un promedio de AP en varias consultas. AP se define correctamente en los datos binarios como el área bajo la curva de recuperación de precisión, que se puede reescribir como el promedio de las precisiones en cada elemento positivo. (vea el artículo de Wikipedia en MAP ) Una posible aproximación es definirlo como el promedio de las precisiones en cadaarticulo. Lamentablemente, perdemos la buena propiedad de que los ejemplos negativos clasificados al final de la lista no tienen impacto en el valor de AP. (Esto es particularmente triste cuando se trata de evaluar un motor de búsqueda, con muchos más ejemplos negativos que ejemplos positivos. Una posible solución es submuestrear los ejemplos negativos, a costa de otras desventajas, por ejemplo, las consultas con más elementos positivos serán igualmente difícil para las consultas con pocos ejemplos positivos.)
Por otro lado, esta aproximación tiene la agradable propiedad de que se generaliza bien en el caso de múltiples etiquetas. De hecho, en el caso binario, la precisión en la posición k también se puede interpretar como la relevancia promedio antes de la posición k, donde la relevancia de un ejemplo positivo es 1, y la relevancia de un ejemplo negativo es 0. Esta definición se extiende de forma bastante natural a el caso donde hay más de dos niveles diferentes de relevancia. En este caso, AP también se puede definir como la media de los promedios de las relevancias en cada posición.
k
wA Pk= 1KIniciar sesión( Kk)
K
wD Csolk= 1Iniciar sesión( k + 1 )
A partir de estas dos expresiones, podemos deducir que: AP pesa los documentos de 1 a 0. DCG pesa los documentos independientemente del número total de documentos.
En ambos casos, si hay ejemplos mucho más irrelevantes que ejemplos relevantes, el peso total de lo positivo puede ser insignificante. Para AP, una solución alternativa es submuestrear las muestras negativas, pero no estoy seguro de cómo elegir la proporción de submuestreo, así como si hacer que dependa de la consulta o de la cantidad de documentos positivos. Para DCG, podemos cortarlo en k, pero surgen el mismo tipo de preguntas.
Me alegraría saber más sobre esto, si alguien aquí trabajó en el tema.