¿Cuál es la mejor manera de explicar por qué no es una buena medida, por ejemplo, en comparación con F1?
¿Cuál es la mejor manera de explicar por qué no es una buena medida, por ejemplo, en comparación con F1?
Respuestas:
No es que sea una mala medida per se, es solo que, por sí solo, el número resultante no representa nada significativo. Sin embargo, está en el camino correcto ... lo que estamos buscando es un promedio combinado de las dos medidas de rendimiento, ya que no queremos tener que elegir entre ellas.
Recuerde que la precisión y la recuperación se definen como:
Retirada positiva pronosticada=Verdadero positivo
Dado que ambos tienen denominadores diferentes, sumarlos juntos resulta en algo como esto: ... que no es particularmente útil.
Volvamos a sumarlos y hagamos un ajuste: multiplíquelos por para que se mantengan en la escala correcta, . Esto está tomando el promedio familiar de ellos. [0-1]
Entonces, tenemos dos cantidades, que tienen el mismo numerador, pero diferentes denominadores y nos gustaría tomar el promedio de ellas. qué hacemos? Bueno, podríamos darles la vuelta, tomar su inverso. Entonces podrías agregarlos juntos. Entonces están "al derecho", tomas el inverso nuevamente.
Este proceso de invertir, y luego invertir nuevamente, convierte una media "regular" en una media armónica. Resulta que la media armónica de precisión y recuperación es la estadística F1. La media armónica se usa generalmente en lugar de la media aritmética estándar cuando se trata de tasas, como lo hacemos aquí.
Al final, el estadístico F1 es solo el promedio de precisión y recuperación, y lo usa porque no desea elegir uno u otro para evaluar el rendimiento del modelo.
La respuesta corta es: no esperaría que la suma de dos porcentajes que tienen dos denominadores diferentes tenga un significado particular. Por lo tanto, el enfoque para tomar una medida promedio como F1, F2 o F0.5. Estos últimos conservan al menos la propiedad de un porcentaje. ¿Pero qué hay de su significado?
La belleza de Precision and Recall como medidas separadas es su facilidad de interpretación y el hecho de que se pueden enfrentar fácilmente con los objetivos comerciales del modelo. La precisión mide el porcentaje de true positives
fuera de los casos clasificados según positive
el modelo. La recuperación mide el porcentaje de true positives
encontrado por el modelo de todos los true
casos. Para muchos problemas, tendrá que elegir entre optimizar Precisión o Recuperación.
Cualquier medida promedio pierde la interpretación anterior y se reduce a la medida que prefiera más. F1 significa que no sabes si prefieres Recordar o Precisión, o si asignas el mismo peso a cada uno de ellos. Si considera que la recuperación es más importante que la precisión, también debe asignarle un mayor peso en el cálculo promedio (por ejemplo, F2) y viceversa (por ejemplo, F0.5).
Agregar los dos es una mala medida. Obtendrá una puntuación de al menos 1 si marca todo como positivo, ya que es un retiro del 100% por definición. Y obtendrá un pequeño golpe de precisión además de eso. La media geométrica utilizada en F1 enfatiza el enlace débil, ya que es multiplicativo; Al menos tienes que hacerlo bien con precisión y recuperación para obtener una puntuación decente en la F1.
La puntuación F1 es especialmente valiosa en caso de probabilidades muy asimétricas.
Considere el siguiente ejemplo: examinamos una enfermedad rara pero peligrosa. Supongamos que en una ciudad de 1,000,000 de personas solo 100 están infectadas.
La prueba A detecta todos estos 100 positivos. Sin embargo, también tiene una tasa de falsos positivos del 50%: muestra erróneamente que otras 500,000 personas están enfermas.
Mientras tanto, la prueba B omite el 10% de los infectados, pero solo da 1,000 falsos positivos (0.1% tasa de falsos positivos)
Calculemos los puntajes. Para la prueba A, la precisión será efectivamente 0; la recuperación será exactamente 1. Para la prueba B, la precisión seguirá siendo bastante pequeña, aproximadamente 0.01. El retiro será igual a 0.9.
Si sumamos o tomamos ingenuamente la media aritmética de precisión y recuperación, esto dará 1 (0.5) para la prueba A y 0.91 (0.455) para la prueba B. Entonces, la prueba A parecería marginalmente mejor.
Sin embargo, si miramos desde una perspectiva práctica, la prueba A no vale nada: si una persona es positiva, ¡su probabilidad de estar realmente enferma es de 1 en 50,000! La prueba B tiene un significado más práctico: puede llevar a 1.100 personas al hospital y observarlas de cerca. Esto se refleja con precisión en la puntuación F1: para la prueba A estará cerca de 0.0002, para la prueba B: (0.01 * 0.9) / (0.01 + 0.9) = 0.0098, que todavía es bastante pobre, pero aproximadamente 50 veces mejor.
Esta coincidencia entre el valor del puntaje y la importancia práctica es lo que hace que el puntaje F1 sea valioso.
En general, maximizar la media geométrica enfatiza que los valores son similares. Por ejemplo, tome dos modelos: el primero tiene (precisión, recuperación) = (0.8, 0.8) y el segundo tiene (precisión, recuperación) = (0.6, 1.0). Usando la media algebraica, ambos modelos serían equivalentes. Usando la media geométrica, el primer modelo es mejor porque no cambia la precisión por el recuerdo.