Según el profesor Andrew Ng (ver diapositivas en la página 11),
La función h (X) representa su hipótesis. Para los parámetros de ajuste fijos theta, es una función de las características X. Yo diría que esto también se puede llamar la Función Objetivo.
La función de coste J es una función de los parámetros de ajuste theta. J = J (theta).
Según el libro de texto de Hastie et al. "Elementos del aprendizaje estadístico" , por p.37:
"Buscamos una función f (X) para predecir Y dados los valores de la entrada X". [...] la función de pérdida L (Y, f (X)) es "una función para penalizar los errores en la predicción",
Por lo tanto, parece que "función de pérdida" es un término un poco más general que "función de costo". Si busca "pérdida" en ese PDF, creo que usan "función de costo" y "función de pérdida" como sinónimos.
De hecho, p. 502
"La situación [en Clustering] es algo similar a la especificación de una función de pérdida o costo en problemas de predicción (aprendizaje supervisado)".
Quizás estos términos existen porque evolucionaron independientemente en diferentes comunidades académicas. "Función Objetivo" es un antiguo término utilizado en Investigación de Operaciones e Ingeniería Matemática. La "función de pérdida" podría ser más utilizada entre los estadísticos. Pero estoy especulando aquí.