Estoy tratando de descubrir cómo calcular el índice Rand de un algoritmo de clúster, pero no sé cómo calcular los negativos verdaderos y falsos.
En este momento estoy usando el ejemplo del libro Introducción a la recuperación de información (Manning, Raghavan y Schütze, 2009). En la página 359 hablan sobre cómo calcular el índice Rand. Para este ejemplo, usan tres grupos y los grupos contienen los siguientes objetos.
- aaaaab
- abbbbc
- aaccc
Reemplazo el objeto (signos originales a letras, pero la idea y el recuento permanecen igual). Daré las palabras exactas del libro para ver de qué están hablando:
Primero calculamos TP + FP. Los tres grupos contienen 6, 6 y 5 puntos, respectivamente, por lo que el número total de "positivos" o pares de documentos que están en el mismo grupo es:
TP + FP = + ( 6 + ( 5 = 15 + 15+ 10 = 40
De estos, los pares a en el grupo 1, los pares b en el grupo 2, los pares c en el grupo 3 y los pares a en el grupo 3 son verdaderos positivos:
TP = + ( 4 + ( 3 + ( 2 = 10 + 6 + 3 + 1 = 20
Por lo tanto, FP = 40-20 = 20.
Hasta aquí, los cálculos son claros, y si tomo otros ejemplos obtengo los mismos resultados, pero cuando quiero calcular el falso negativo y el verdadero negativo, Manning et al. declare lo siguiente:
FN y TN se calculan de manera similar, dando como resultado la siguiente tabla de contingencia:
La tabla de contingencia tiene el siguiente aspecto:
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
La frase: "FN y TN se calculan de manera similar" no está clara para mi y no entiendo qué números necesito para calcular el TN y FN. Puedo calcular el lado derecho de la tabla haciendo lo siguiente:
TP + FP + FN + TN = = ( 17 = 136
Fuente: http://en.wikipedia.org/wiki/Rand_index
Por lo tanto, FN + TN = 136 - TP + FP = 136 - 40 = 96, pero esto realmente no me ayuda a descubrir cómo calcular las variables por separado. Especialmente cuando los autores dicen: "FN y TN se calculan de manera similar". No veo como Además, cuando miro otros ejemplos, calculan cada celda de la tabla de contingencia mirando cada par.
Por ejemplo: http://www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
Mi primera pregunta, basada en el ejemplo de Manning et al (2009), ¿es posible calcular el TN y el FN si solo conoce el TP y el NP? Y si es así, ¿cómo se ve un cálculo similar basado en el ejemplo dado?