Tuve preguntas similares cuando leí papeles de otros archivados. Y formuló muchas preguntas relacionadas con esto, como esta en la comunidad de Educación de Minería de Datos:
¿Por qué usar la pérdida al cuadrado en las probabilidades en lugar de la pérdida logística?
Aquí presentaré muchas opiniones personales.
Siento que la función de pérdida no importa demasiado en muchos casos de uso práctico. Algún investigador puede saber más acerca de la pérdida al cuadrado y el sistema de construcción de la misma, sigue funcionando y resuelve problemas del mundo real. Es posible que los investigadores nunca sepan la pérdida logística o la pérdida de la bisagra, y quieran probarlo. Además, puede que no les interese encontrar el modelo matemático óptimo, pero quieren resolver problemas reales que nadie intentó resolver antes.
Este es otro ejemplo: si marca esta respuesta a mi pregunta, todas son similares. ¿Cuáles son los impactos de elegir diferentes funciones de pérdida en la clasificación para aproximar la pérdida 0-1?
Más pensamientos: una investigación de aprendizaje automático puede pasar mucho tiempo en qué modelo elegir y cómo optimizar el modelo. Esto se debe a que un investigador de aprendizaje automático puede no tener la capacidad de recopilar más datos / obtener más medidas. Y el trabajo de un investigador de aprendizaje automático es mejorar las matemáticas, no resolver mejor un problema específico del mundo real.
Por otro lado, en el mundo real, si los datos son mejores, supera todo. Por lo tanto, elegir una red neuronal o un bosque aleatorio puede no importar demasiado. Todos estos modelos son similares a los que una persona quiere utilizar el aprendizaje automático como herramienta para resolver problemas del mundo real. Una persona que no está interesada en desarrollar matemática o herramientas puede pasar más tiempo usando el conocimiento de un dominio específico para mejorar el sistema.
Como mencioné en el comentario. Y si uno es descuidado con las matemáticas, todavía podrá construir algo que funcione.