Tengo una tarea de clasificación en la que tengo varios predictores (uno de los cuales es el más informativo), y estoy usando el modelo MARS para construir mi clasificador (estoy interesado en cualquier modelo simple, y usar glms con fines ilustrativos sería bien también). Ahora tengo un gran desequilibrio de clase en los datos de entrenamiento (alrededor de 2700 muestras negativas para cada muestra positiva). Al igual que las tareas de recuperación de información, estoy más preocupado por predecir las muestras de prueba positivas de mejor clasificación. Por esta razón, el rendimiento en las curvas de Precision Recall es importante para mí.
En primer lugar, simplemente entrené el modelo en mis datos de entrenamiento manteniendo el desequilibrio de clase tal como está. Visualizo mi modelo entrenado en rojo, y la entrada más importante en azul.
Capacitación sobre datos no balanceados, evaluación sobre datos no balanceados :
Pensando que el desequilibrio de clase está desestabilizando el modelo, ya que aprender las muestras positivas de más alto rango es una parte minúscula de todo el conjunto de datos, realicé un muestreo de los puntos de entrenamiento positivos para obtener un conjunto equilibrado de datos de entrenamiento. Cuando trazo el rendimiento en el conjunto de entrenamiento equilibrado , obtengo un buen rendimiento. Tanto en las curvas PR como ROC, mi modelo entrenado funciona mejor que las entradas.
Capacitación sobre datos balanceados (muestreados), evaluación también sobre datos balanceados (muestreados):
Sin embargo, si uso este modelo entrenado en los datos balanceados, para predecir sobre el conjunto de entrenamiento original y no balanceado, todavía obtengo un mal desempeño en la curva PR.
Capacitación sobre datos balanceados (muestreados), evaluación sobre datos originales no balanceados:
Entonces mis preguntas son:
- ¿Es la razón por la que la visualización de la curva PR muestra un rendimiento inferior de mi modelo entrenado (rojo), mientras que la curva ROC muestra mejoras debido al desequilibrio de clase?
- ¿Pueden los enfoques de remuestreo / muestreo ascendente / muestreo descendente resolver esto para obligar a la capacitación a centrarse en la región de alta precisión / baja memoria?
- ¿Hay alguna otra forma de enfocar el entrenamiento en la región de alta precisión / baja recuperación?