Precisión media media frente a rango recíproco medio

Estoy tratando de entender cuándo es apropiado usar el MAP y cuándo se debe usar MRR. Encontré esta presentación que establece que MRR se utiliza mejor cuando el número de resultados relevantes es menor a 5 y mejor cuando es 1. En otros casos, el MAP es apropiado. Tengo dos preguntas:

Realmente no entiendo por qué esto es así.
No puedo encontrar una referencia citable para este reclamo.

Tenga en cuenta que no tengo una base estadística muy sólida, por lo que la explicación de un laico ayudaría mucho. Gracias.

information-retrieval average-precision

— KG
fuente

Imagine que tiene algún tipo de consulta y su sistema de recuperación le ha devuelto una lista clasificada de los 20 elementos principales que considera más relevantes para su consulta. Ahora también imagine que hay una verdad fundamental en esto, que en verdad podemos decir para cada uno de esos 20 que "sí" es una respuesta relevante o "no" no lo es.

El rango recíproco medio (MRR) le brinda una medida general de calidad en estas situaciones, pero MRR solo se preocupa por el elemento relevante mejor clasificado . Si su sistema devuelve un elemento relevante en el tercer lugar más alto, eso es lo que le importa a MRR. No le importa si los otros elementos relevantes (suponiendo que haya alguno) estén clasificados como el número 4 o el número 20.

Por lo tanto, MRR es apropiado para juzgar un sistema en el que (a) solo hay un resultado relevante, o (b) en su caso de uso, solo le importa realmente el mejor clasificado. Esto podría ser cierto en algunos escenarios de búsqueda web, por ejemplo, donde el usuario solo quiere encontrar una cosa en la que hacer clic, ya no necesita más. (Aunque eso es típicamente cierto, ¿o estaría más contento con una búsqueda en la web que arrojó diez respuestas bastante buenas, y podría hacer su propio juicio sobre cuáles hacer clic en ...?)

La precisión media promedio (MAP) considera si todos los elementos relevantes tienden a obtener una alta calificación. Entonces, en el ejemplo del top 20, no solo le importa si hay una respuesta relevante en el número 3, sino que también le importa si todos los elementos "sí" en esa lista están agrupados en la parte superior.

Cuando solo hay una respuesta relevante en su conjunto de datos, el MRR y el MAP son exactamente equivalentes según la definición estándar de MAP.

Para ver por qué, considere los siguientes ejemplos de juguetes, inspirados en los ejemplos en esta publicación de blog :

Ejemplo 1

Consulta: "Capital de California"

Resultados clasificados: "Portland", "Sacramento", "Los Ángeles"

Resultados clasificados (relevancia binaria): [0, 1, 0]

Número de respuestas correctas posibles: 1

Rango recíproco: $\frac{1}{2}$

Precisión en 1: $\frac{0}{1}$

Precisión en 2: $\frac{1}{2}$

Precisión en 3: $\frac{1}{3}$

Precisión media = . $\frac{1}{m} * \frac{1}{2} = \frac{1}{1}*\frac{1}{2} = 0.5$

Como puede ver, la precisión promedio para una consulta con exactamente una respuesta correcta es igual al rango recíproco del resultado correcto. Se deduce que el MRR de una colección de tales consultas será igual a su MAP. Sin embargo, como se ilustra en el siguiente ejemplo, las cosas divergen si hay más de una respuesta correcta:

Ejemplo 2

Consulta: "Ciudades en California"

Resultados clasificados: "Portland", "Sacramento", "Los Ángeles"

Resultados clasificados (relevancia binaria): [0, 1, 1]

Número de respuestas correctas posibles: 2

Rango recíproco: $\frac{1}{2}$

Precisión en 1: $\frac{0}{1}$

Precisión en 2: $\frac{1}{2}$

Precisión en 3: $\frac{2}{3}$

Precisión promedio = . $\frac{1}{m} * \big[ \frac{1}{2} + \frac{2}{3} \big] = \frac{1}{2} * \big[ \frac{1}{2} + \frac{2}{3} \big] = 0.38$

Como tal, la elección de MRR vs MAP en este caso depende completamente de si quieres o no que influyan las clasificaciones después del primer golpe correcto.

— Dan Stowell
fuente