Creo que básicamente has dado en el clavo en la pregunta, pero veré si puedo agregar algo de todos modos. Voy a responder esto de una manera indirecta ...
El campo de estadísticas robustas examina la cuestión de qué hacer cuando falla la suposición gaussiana (en el sentido de que hay valores atípicos):
a menudo se supone que los errores de datos se distribuyen normalmente, al menos aproximadamente, o que se puede confiar en el teorema del límite central para producir estimaciones distribuidas normalmente. Desafortunadamente, cuando hay valores atípicos en los datos, los métodos clásicos a menudo tienen un rendimiento muy pobre.
También se han aplicado en ML, por ejemplo en Mika el al. (2001) Enfoque de programación matemática para el algoritmo Kernel Fisher , describen cómo se puede usar la pérdida robusta de Huber con KDFA (junto con otras funciones de pérdida). Por supuesto, esta es una pérdida de clasificación, pero KFDA está estrechamente relacionada con la máquina de vectores de relevancia (consulte la sección 4 del documento de Mika).
Como se implica en la pregunta, existe una estrecha conexión entre las funciones de pérdida y los modelos de error bayesianos (consulte aquí para una discusión).
Sin embargo, tiende a darse el caso de que tan pronto como comience a incorporar funciones de pérdida "funky", la optimización se vuelve difícil (tenga en cuenta que esto también ocurre en el mundo bayesiano). Por lo tanto, en muchos casos, las personas recurren a funciones de pérdida estándar que son fáciles de optimizar y, en cambio, realizan un procesamiento previo adicional para garantizar que los datos se ajusten al modelo.
El otro punto que menciona es que el CLT solo se aplica a las muestras que son IID. Esto es cierto, pero los supuestos (y el análisis que lo acompaña) de la mayoría de los algoritmos son los mismos. Cuando comienzas a buscar datos que no son IID, las cosas se vuelven mucho más complicadas. Un ejemplo es si hay una dependencia temporal, en cuyo caso el enfoque es suponer que la dependencia solo abarca una determinada ventana y, por lo tanto, las muestras pueden considerarse aproximadamente IID fuera de esta ventana (ver, por ejemplo, este papel brillante pero resistente Chromatic PAC -Bayes Bounds para datos no IID: aplicaciones a los procesos de clasificación y mezcla β estacionaria ), después de lo cual se puede aplicar el análisis normal.
Entonces, sí, todo se reduce en parte a la conveniencia, y en parte porque en el mundo real, la mayoría de los errores se ven (aproximadamente) gaussianos. Por supuesto, siempre se debe tener cuidado al mirar un nuevo problema para asegurarse de que no se violen los supuestos.