Supongamos que estoy construyendo un clasificador de regresión logística que predice si alguien está casado o soltero. (1 = casado, 0 = soltero) Quiero elegir un punto en la curva de recuperación de precisión que me brinde al menos un 75% de precisión, por lo que quiero elegir umbrales y , así que eso:
- Si la salida de mi clasificador es mayor que , Salgo "casado".
- Si la salida es inferior , Salgo "single".
- Si la salida está en el medio, saco "No sé".
Un par de preguntas:
- Creo que, según la definición estándar de precisión, la precisión medirá la precisión de la clase de casados solo (es decir, precisión = # veces predigo correctamente casado / total # veces predigo casado). Sin embargo, lo que realmente quiero hacer es medir la precisión general (es decir, el total de # veces que predigo correctamente casado o soltero / total de # veces que predigo casado o soltero). ¿Es esto algo correcto? Si no, ¿qué debo hacer?
- ¿Hay alguna manera de calcular esta curva de precisión / recuperación "general" en R (por ejemplo, usando el paquete ROCR o alguna otra biblioteca)? Actualmente estoy usando el paquete ROCR, pero parece que solo me da la precisión / recuperación de una sola clase a la vez.