Se disculpa por el mal uso de los términos técnicos. Estoy trabajando en un proyecto de segmentación semántica a través de redes neuronales convolucionales (CNN); tratando de implementar una arquitectura de tipo Encoder-Decoder, por lo tanto, la salida es del mismo tamaño que la entrada.
¿Cómo diseñas las etiquetas? ¿Qué función de pérdida se debe aplicar? Especialmente en la situación de gran desequilibrio de clases (pero la relación entre las clases es variable de una imagen a otra).
El problema trata con dos clases (objetos de interés y antecedentes). Estoy usando Keras con el backend tensorflow.
Hasta ahora, voy a diseñar los resultados esperados para que tengan las mismas dimensiones que las imágenes de entrada, aplicando un etiquetado en píxeles. La capa final del modelo tiene activación softmax (para 2 clases) o activación sigmoidea (para expresar la probabilidad de que los píxeles pertenezcan a la clase de objetos). Tengo problemas para diseñar una función objetivo adecuada para tal tarea, de tipo:
function(y_pred,y_true)
,
de acuerdo con Keras .
Por favor, trate de ser específico con las dimensiones de los tensores involucrados (entrada / salida del modelo). Cualquier idea y sugerencia es muy apreciada. Gracias !