Estoy tratando de hacer un detector de objetos que ocurren muy raramente (en imágenes), planeando usar un clasificador binario CNN aplicado en una ventana deslizante / redimensionada. He construido entrenamientos balanceados positivos y negativos 1: 1 y conjuntos de pruebas (¿es correcto hacerlo en este caso por cierto?), Y el clasificador está funcionando bien en un conjunto de pruebas en términos de precisión. Ahora quiero controlar la recuperación / precisión de mi clasificador para que, por ejemplo, no etiquete erróneamente demasiadas ocurrencias de clase mayoritaria.
La solución obvia (para mí) es usar la misma pérdida logística que se usa ahora, pero los errores de tipo I y tipo II de peso de manera diferente al multiplicar la pérdida en uno de los dos casos en alguna constante, que se puede ajustar. ¿Es correcto?
PD: Pensándolo bien, esto equivale a ponderar algunas muestras de entrenamiento más que otras. Solo agregar más de una clase logrará lo mismo, creo.