Desafortunadamente, la respuesta aceptada ahora por @Sycorax, aunque detallada, es incorrecta.
En realidad, un ejemplo excelente de regresión a través de la entropía cruzada categórica - Wavenet - se ha implementado en TensorFlow .
El principio es que usted discretiza su espacio de salida y luego su modelo solo predice el bin respectivo; Consulte la Sección 2.2 del documento para ver un ejemplo en el dominio de modelado de sonido. Entonces, aunque técnicamente el modelo realiza la clasificación, la tarea final resuelta es la regresión.
Un inconveniente obvio es que pierde la resolución de salida. Sin embargo, esto puede no ser un problema (al menos creo que el asistente artificial de Google habló con una voz muy humana ) o puede jugar con algo de procesamiento posterior, por ejemplo, interpolar entre el bin más probable y sus dos vecinos.
Por otro lado, este enfoque hace que el modelo sea mucho más poderoso en comparación con la salida habitual de una sola unidad lineal, es decir, permite expresar predicciones multimodales o evaluar su confianza. Sin embargo, tenga en cuenta que esto último puede lograrse naturalmente por otros medios, por ejemplo, teniendo una salida de varianza explícita (log) como en los codificadores automáticos variacionales.
De todos modos, este enfoque no escala bien a una salida más dimensional, porque entonces el tamaño de la capa de salida crece exponencialmente, lo que lo convierte en un problema tanto de computación como de modelado.