¿Cómo comparar dos algoritmos de clasificación?

12

Quiero comparar dos algoritmos de clasificación. En estos algoritmos, el cliente especifica algunas condiciones en su búsqueda. De acuerdo con los requisitos del cliente, este algoritmo debe asignar una puntuación para cada elemento en la base de datos y recuperar los elementos con las puntuaciones más altas.

He leído diferentes temas relacionados con mi pregunta en este sitio y busqué en la red. Según mis búsquedas, el artículo más relevante que explica algunas métricas para comparar algoritmos de clasificación fue: Brian McFee y Gert RG Lanckriet, Metric Learning to Rank, ICML 2010 ( https://bmcfee.github.io/papers/mlr .pdf ). Creo que prec @ k, MAP, MRR y NDCG son buenas métricas para usar, pero tengo un problema:

Mi algoritmo ordena los resultados, por lo que el primer elemento de mi lista de resultados es el mejor con la puntuación más alta, el segundo resultado tiene la segunda puntuación más alta, y así sucesivamente. Limito mi algoritmo de búsqueda para, por ejemplo, encontrar 5 mejores resultados. Los resultados son los 5 elementos más importantes. Entonces, la precisión será 1. Cuando limito mi búsqueda para encontrar el mejor resultado, encuentra el mejor. Nuevamente, la precisión será 1. Pero el problema es que es inaceptable para las personas que ven este resultado.

¿Que puedo hacer? ¿Cómo puedo comparar estos algoritmos y mostrar que uno es mejor que el otro?

machine-learning precision-recall average-precision

— MK
fuente

6

La ganancia acumulada con descuento (DCG) es una de las métricas más populares utilizadas para la evaluación de la clasificación por cualquier motor de búsqueda. Es una medida de calidad de ranking. En la recuperación de información, a menudo se usa para medir la efectividad del motor de búsqueda web.

Se basa en los siguientes supuestos:

Los documentos altamente relevantes son más útiles si aparecen antes en un resultado de búsqueda.
Los documentos altamente relevantes son más útiles que los documentos marginalmente relevantes que son mejores que los documentos no relevantes.

La fórmula para DCG es la siguiente:

\begin{matrix} (1) & D C G_{p} = \sum_{i = 1}^{p} \frac{r e l_{i}}{l o g_{2} (i + 1)} = r e l_{1} + \sum_{i = 2}^{p} \frac{r e l_{i}}{l o g_{2} (i + 1)} \end{matrix}

$DCG_p = \sum_{i=1}^p \frac {rel_i} {log_2 (i+1)} = rel_1 + \sum_{i=2}^p \frac {rel_i} {log_2 (i+1)} \tag{1}$

Dónde:

i es la posición devuelta de un documento en el resultado de la búsqueda.
$rel_i$
suma sobre p (número de resultados devueltos) por lo tanto, la ganancia acumulada acumulada proporciona las métricas de rendimiento del resultado devuelto.

DCG se deriva de CG (ganancia acumulativa) , dada por:

\begin{matrix} (2) & C G_{p} = \sum_{i = 1}^{p} r e l_{i} \end{matrix}

$CG_p = \sum_{i=1}^p rel_i \tag{2}$

$CG_p$

\begin{matrix} (3) & D C G_{p} = \sum_{i = 1}^{p} \frac{2^{r e l_{i}} - 1}{l o g_{2} (i + 1)} \end{matrix}

$DCG_p = \sum_{i=1}^p \frac {2^{rel_i} - 1} {log_2 (i+1)} \tag{3}$

$p$ $DCG_p$

Para superar este problema, se propone DCG normalizado (nDCG) . Es dado por

n D C G_{p} = \frac{D C G_{p}}{I D C G_{p}}

$nDCG_p = \frac {DCG_p} {IDCG_p}$

$IDCG_p$ $DCG_p$

I D C G_{p} = \sum_{i = 1}^{| R E L |} \frac{2^{r e l_{i}} - 1}{l o g_{2} (i + 1)}

$IDCG_p = \sum_{i=1}^{|REL|} \frac {2^{rel_i} - 1} {log_2 (i+1)}$

Donde | REL | es la lista de documentos ordenados por relevancia en el corpus hasta la posición p.

Para un algoritmo de clasificación perfecto,

D C G_{p} = I D C G_{p}

$DCG_p = IDCG_p$

Dado que los valores de nDCG se escalan dentro del rango [0,1], la comparación de consultas cruzadas es posible utilizando estas métricas.

Inconvenientes: 1. nDCG no penaliza la recuperación de documentos incorrectos en el resultado. Esto se puede corregir ajustando los valores de relevancia atribuidos a los documentos. 2. nDCG no penaliza los documentos faltantes. Esto se puede solucionar fijando el tamaño de recuperación y utilizando la puntuación mínima para los documentos que faltan.

Consulte esto para ver ejemplos de cálculos de nDCG.

Referencia

— m1cro1ce
fuente

0

Recursos utiles:

http://www.cs.utexas.edu/~mooney/ir-course/slides/Evaluation.ppt
http://www.nii.ac.jp/TechReports/05-014E.pdf
http://www.stanford.edu/class/cs276/handouts/EvaluationNew-handout-6-per.pdf
http://hal.archives-ouvertes.fr/docs/00/72/67/60/PDF/07-busa-fekete.pdf
Aprender a clasificar para la recuperación de información (Tie-Yan Liu)

— Renaud
fuente