El error de clasificación es de hecho a veces manejable. Se puede optimizar de manera eficiente, aunque no exactamente, utilizando el método Nelder-Mead, como se muestra en este artículo:
https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html
"La reducción de dimensiones es el proceso de transformar vectores multidimensionales en un espacio de baja dimensión. En el reconocimiento de patrones, a menudo se desea que esta tarea se realice sin una pérdida significativa de información de clasificación. El error de Bayes es un criterio ideal para este propósito; sin embargo, se sabe que es notoriamente difícil para el tratamiento matemático. En consecuencia, se han utilizado criterios subóptimos en la práctica. Proponemos un criterio alternativo, basado en la estimación del error de Bayes, que esperamos sea más cercano al criterio óptimo que los criterios actualmente en uso. . Se concibe e implementa un algoritmo para la reducción de la dimensión lineal, basado en este criterio. Los experimentos demuestran su rendimiento superior en comparación con los algoritmos convencionales ".
El error de Bayes mencionado aquí es básicamente la pérdida 0-1.
Este trabajo se realizó en el contexto de la reducción de la dimensión lineal. No sé qué tan efectivo sería para entrenar redes de aprendizaje profundo. Pero el punto es, y la respuesta a la pregunta: la pérdida 0-1 no es universalmente intratable. Se puede optimizar relativamente bien para al menos algunos tipos de modelos.