Respuestas:
El conjunto de métricas de error entre las que puede elegir es diferente entre clasificación y regresión. En el último, intenta predecir un valor continuo, y con la clasificación predice clases discretas como "saludable" o "no saludable". De los ejemplos que mencionó, el error cuadrático medio sería aplicable para la regresión y AUC para la clasificación con dos clases.
Déjame darte un poco más de detalles sobre la clasificación. Usted mencionó AUC como una medida, que es el área bajo la curva ROC, que generalmente solo se aplica a problemas de clasificación binaria con dos clases. Aunque hay maneras de construir una curva ROC para más de dos clases, pierden la simplicidad de la curva ROC para dos clases. Además, las curvas ROC solo pueden construirse si el clasificador elegido genera algún tipo de puntaje asociado con cada predicción. Por ejemplo, la regresión logística le dará probabilidades para cada una de las dos clases. Además de su simplicidad, las curvas ROC tienen la ventaja de que no se ven afectadas por la relación entre las instancias etiquetadas positiva y negativamente en sus conjuntos de datos y no lo obligan a elegir un umbral. Sin embargo, se recomienda no solo mirar la curva ROC sola sino también otras visualizaciones. Recomiendo echar un vistazo a las curvas de recuperación de precisión y las curvas de costo.Una verdadera medida de error, todos tienen sus puntos fuertes y débiles.
La literatura que encontré útil a este respecto es:
Si su clasificador no proporciona algún tipo de puntaje, debe recurrir a las medidas básicas que se pueden obtener de una matriz de confusión que contiene el número de verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos. Las visualizaciones mencionadas anteriormente (ROC, recuperación de precisión, curva de costo) se basan en estas tablas obtenidas utilizando un umbral diferente de la puntuación del clasificador. La medida más popular en este caso es probablemente la medida F1
Permítanme agregar algunas ideas más a las respuestas ya existentes.
dependiendo del diseño de su estudio, la fracción general de muestras correctas o mal clasificadas puede ser un resumen apropiado o no, y las conclusiones a las que puede llegar también dependerán del diseño del estudio: ¿Sus datos de prueba reflejan las probabilidades anteriores (prevalencia) de clases? ¿Para la población en la que se supone que debe usarse su clasificador? ¿Fue recolectado de manera estratificada? Esto está estrechamente relacionado con el hecho de que la mayoría de los usuarios de un clasificador están más interesados en los valores predictivos, pero la sensibilidad y la especificidad son mucho más fáciles de medir.
Usted pregunta sobre pautas generales. Una pauta general es que necesitas saber
Creo que no podrá encontrar una métrica útil a menos que pueda responder estas preguntas.
Es un poco como si no hubiera almuerzo gratis en la validación del clasificador, tampoco.
La tasa de error de clasificación errónea esperada es el método que he usado y visto con más frecuencia. El AUC de la ROC es una medida de un conjunto de reglas de clasificación. Si la idea es comparar un clasificador específico con otro, entonces el AUC no es apropiado. Alguna forma de error de clasificación tiene más sentido ya que representa más directamente el desempeño de la regla de clasificación.
Se ha trabajado mucho para encontrar buenas estimaciones de la tasa de error de clasificación debido al gran sesgo de la estimación de resubstitución y la alta varianza de la exclusión. Bootstrap y estimadores suaves han sido confiscados. Véase, por ejemplo, el artículo de Efron en JASA 1983 sobre las mejoras de arranque sobre la validación cruzada.
Aquí hay un informe técnico de la Universidad de Stanford de 1995 de Efron y Tibshirami que resume la literatura que incluye parte de mi propio trabajo.