Métricas para evaluar algoritmos de clasificación

15

Estoy interesado en ver varias métricas diferentes para los algoritmos de clasificación: hay algunas que figuran en la página de Wikipedia de Learning to Rank, que incluyen:

• Precisión media promedio (MAP);

• DCG y NDCG;

• Precisión @ n, NDCG @ n, donde "@n" indica que las métricas se evalúan solo en los n documentos principales;

• Rango recíproco medio;

• tau de Kendall

• Rho de Spearman

• Rango recíproco esperado

• El hallazgo de Yandex

pero no me queda claro cuáles son las ventajas / desventajas de cada uno o cuándo puede elegir uno sobre otro (o lo que significaría si un algoritmo superara a otro en NDGC pero fuera peor cuando se evalúa con MAP).

¿Hay algún lugar al que pueda ir para aprender más sobre estas preguntas?

algorithms ranking

— anthr
fuente

29

De hecho, estoy buscando la misma respuesta, sin embargo, debería poder responder al menos parcialmente a su pregunta.

Todas las métricas que ha mencionado tienen rasgos diferentes y, desafortunadamente, la que debe elegir depende de lo que realmente le gustaría medir. Aquí hay algunas cosas que valdría la pena tener en cuenta:

La métrica rho de Spearman penaliza los errores en la parte superior de la lista con el mismo peso que los desajustes en la parte inferior, por lo que, en la mayoría de los casos, esta no es la métrica que se debe utilizar para evaluar las clasificaciones.
DCG y NDCG son una de las pocas métricas que tienen en cuenta la función de utilidad no binaria, por lo que puede describir qué tan útil es un registro y no si es útil.
DCG y NDCG tienen pesajes fijos para las posiciones, por lo que un documento en una posición dada siempre tiene la misma ganancia y descuento independientemente de los documentos que se muestran arriba
Por lo general, preferiría NDCG sobre DCG , porque normaliza el valor por la cantidad de documentos relevantes
Se supone que MAP es una métrica clásica y de referencia para este problema y parece ser un estándar en el campo.
(N) DCG debe calcularse siempre para una cantidad fija de registros (@k), porque tiene una cola larga (muchos registros irrelevantes al final de la clasificación sesgan mucho la métrica). Esto no se aplica a MAP .
La clasificación recíproca media solo marca la posición del primer documento relevante, por lo que si le interesa la mayor cantidad posible de documentos relevantes para estar en la lista, entonces esta no debería ser su elección
La tau de Kendall solo maneja la función de utilidad binaria, también debe calcularse @k (similar a NDCG )

Recursos valiosos:

Conferencia de Victor Lavrenko en YouTube : es solo un enlace al episodio MAP vs NDCG, pero toda la conferencia incluye mucho más (incluida la Tau de Kendall). Definitivamente deberías echarle un vistazo, gran conferencia!
Papel ERR

No puedo publicar más enlaces, debido a la nueva cuenta :) Si alguien tiene más comentarios o ideas, ¡me encantaría escucharlos también!

— stpk
fuente

Creo que ahora tiene suficientes puntos para actualizar esta respuesta si tiene más enlaces.

— Yash Kumar Atri

5

En muchos casos en los que aplica algoritmos de clasificación (por ejemplo, búsqueda de Google, recomendación de productos de Amazon), tiene cientos y miles de resultados. El usuario solo quiere ver en la parte superior ~ 20 más o menos. Entonces el resto es completamente irrelevante.

$k$

Si esto es cierto para su aplicación, esto tiene implicaciones directas en la métrica:

$k$ $k$
$2k$

$k$ $k$

Precisión de clasificación Top-k para clasificación

Para la verdad básica, podría ser difícil definir un orden. Y si solo distingue relevante / no relevante, ¡en realidad está en un caso de clasificación!

La precisión de Top-n es una métrica para la clasificación. Consulte ¿Cuál es la definición de precisión Top-n? .

top-k accuracy = \frac{how often was at least one relevant element within the top-k of a ranking query?}{ranking queries}

$\text{top-k accuracy} = \frac{\text{how often was at least one relevant element within the top-k of a ranking query?}}{\text{ranking queries}}$

$k$

$k$ $k \in [5, 20]$

$k$

Precisión @ k

Precisión @ k = \frac{cantidad de elementos relevantes dentro del top-k}{k} \in [0 0, 1], más alto es mejor

$\text{Precision@k} = \frac{\text{number of relevant items within the top-k}}{k} \in [0, 1], \text{ higher is better}$

Lo que te dice:

si es alto -> Gran parte de lo que le muestras al usuario es relevante para ellos
si es bajo -> Pierdes el tiempo de tus usuarios. Gran parte de lo que les muestras no es relevante para ellos.

Recordar @ k

Recordar @ k = \frac{cantidad de elementos relevantes dentro del top-k}{número total de artículos relevantes} \in [0 0, 1], más alto es mejor

$\text{Recall@k} = \frac{\text{number of relevant items within the top-k}}{\text{total number of relevant items}} \in [0, 1], \text{ higher is better}$

Lo que significa:

Si es alto: ¡Muestra lo que tienes! Les das todos los artículos relevantes.
Si es bajo: en comparación con la cantidad total de elementos relevantes, k es pequeño / los elementos relevantes dentro de la parte superior k es pequeño. Debido a esto, recordar @ k solo podría no ser tan significativo. Si se combina con una alta precisión @ k, entonces aumentar k podría tener sentido.

— Martin Thoma
fuente

3

Recientemente tuve que elegir una métrica para evaluar algoritmos de clasificación de múltiples etiquetas y llegué a este tema, que fue realmente útil. Aquí hay algunas adiciones a la respuesta de stpk, que fueron útiles para tomar una decisión.

MAP se puede adaptar a problemas de múltiples etiquetas, a costa de una aproximación
No es necesario calcular MAP en k, pero la versión de múltiples etiquetas puede no adaptarse cuando la clase negativa es preponderante
MAP y (N) DCG pueden reescribirse como promedio ponderado de los valores de relevancia clasificados

Detalles

Centrémonos en la precisión promedio (AP) ya que la precisión promedio promedio (MAP) es solo un promedio de AP en varias consultas. AP se define correctamente en los datos binarios como el área bajo la curva de recuperación de precisión, que se puede reescribir como el promedio de las precisiones en cada elemento positivo. (vea el artículo de Wikipedia en MAP ) Una posible aproximación es definirlo como el promedio de las precisiones en cadaarticulo. Lamentablemente, perdemos la buena propiedad de que los ejemplos negativos clasificados al final de la lista no tienen impacto en el valor de AP. (Esto es particularmente triste cuando se trata de evaluar un motor de búsqueda, con muchos más ejemplos negativos que ejemplos positivos. Una posible solución es submuestrear los ejemplos negativos, a costa de otras desventajas, por ejemplo, las consultas con más elementos positivos serán igualmente difícil para las consultas con pocos ejemplos positivos.)

Por otro lado, esta aproximación tiene la agradable propiedad de que se generaliza bien en el caso de múltiples etiquetas. De hecho, en el caso binario, la precisión en la posición k también se puede interpretar como la relevancia promedio antes de la posición k, donde la relevancia de un ejemplo positivo es 1, y la relevancia de un ejemplo negativo es 0. Esta definición se extiende de forma bastante natural a el caso donde hay más de dos niveles diferentes de relevancia. En este caso, AP también se puede definir como la media de los promedios de las relevancias en cada posición.

$k$

w_{k}^{UN PAG} = \frac{1}{K} Iniciar sesión (\frac{K}{k})

$w_k^{AP} = \frac{1}{K}\log(\frac{K}{k})$

$K$

w_{k}^{re C sol} = \frac{1}{Iniciar sesión (k + 1)}

$w_k^{DCG} = \frac{1}{\log(k+1)}$

A partir de estas dos expresiones, podemos deducir que: AP pesa los documentos de 1 a 0. DCG pesa los documentos independientemente del número total de documentos.

En ambos casos, si hay ejemplos mucho más irrelevantes que ejemplos relevantes, el peso total de lo positivo puede ser insignificante. Para AP, una solución alternativa es submuestrear las muestras negativas, pero no estoy seguro de cómo elegir la proporción de submuestreo, así como si hacer que dependa de la consulta o de la cantidad de documentos positivos. Para DCG, podemos cortarlo en k, pero surgen el mismo tipo de preguntas.

Me alegraría saber más sobre esto, si alguien aquí trabajó en el tema.

— rdbs
fuente