Ejecuté una validación cruzada 10 veces en diferentes algoritmos de clasificación binaria, con el mismo conjunto de datos, y recibí resultados promediados Micro y Macro. Cabe mencionar que este fue un problema de clasificación de etiquetas múltiples.
En mi caso, los verdaderos negativos y los verdaderos positivos se ponderan por igual. Eso significa que predecir correctamente los verdaderos negativos es tan importante como predecir correctamente los verdaderos positivos.
Las medidas micro promediadas son más bajas que las medidas macro promediadas. Estos son los resultados de una red neuronal y una máquina de vectores de soporte:
También realicé una prueba de división porcentual en el mismo conjunto de datos con otro algoritmo. Los resultados fueron:
Preferiría comparar la prueba de división porcentual con los resultados macro-promedio, pero ¿es justo? No creo que los resultados promediados en macro estén sesgados porque los verdaderos positivos y los verdaderos negativos se ponderan por igual, pero, una vez más, me pregunto si esto es lo mismo que comparar manzanas con naranjas.
ACTUALIZAR
Con base en los comentarios, mostraré cómo se calculan los promedios micro y macro.
Tengo 144 etiquetas (lo mismo que características o atributos) que quiero predecir. La precisión, la recuperación y la medida F se calculan para cada etiqueta.
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
Considerando una medida de evaluación binaria B (tp, tn, fp, fn) que se calcula en función de los verdaderos positivos (tp), verdaderos negativos (tn), falsos positivos (fp) y falsos negativos (fn). Los promedios macro y micro de una medida específica se pueden calcular de la siguiente manera:
Usando estas fórmulas podemos calcular los promedios micro y macro de la siguiente manera:
Por lo tanto, las medidas micro-promedio agregan todos los tp, fp y fn (para cada etiqueta), después de lo cual se realiza una nueva evaluación binaria. Las medidas promediadas con macro agregan todas las medidas (Precisión, Recuperación o Medida F) y dividen con el número de etiquetas, que es más como un promedio.
Ahora, la pregunta es cuál usar.