Creo que la respuesta aquí es la misma que en todas partes en ciencia de datos: depende de los datos :-)
Puede suceder que un método supere a otro (aquí https://arimo.com/data-science/2016/bayesian-optimization-hyperparameter-tuning/ people compara la optimización del hiperparámetro bayesiano y logra un mejor resultado en el desafío de kaggle del crimen de San Francisco que con búsqueda aleatoria), sin embargo, dudo que haya una regla general para eso. Puede ver un buen gif aquí ( http://blog.revolutionanalytics.com/2016/06/bayesian-optimization-of-machine-learning-models.html ) donde las personas muestran el 'camino' que toma la optimización bayesiana en el paisaje de hiperparámetros, en particular, no parece que supere la búsqueda aleatoria en general ...
Creo que la razón por la cual las personas tienden a usar la optimización de hiperparámetros bayesianos es que solo requiere menos pasos de entrenamiento para lograr un resultado comparable en comparación con la búsqueda aleatoria con un número suficientemente alto de experimentos.
Resumiendo en una oración:
* Cuando el tiempo de entrenamiento es crítico, use la optimización de hiperparámetros bayesianos y si el tiempo no es un problema, seleccione uno de los dos ... *
Por lo general, soy demasiado vago para implementar las cosas bayesianas con procesos gaussianos si puedo lograr el mismo resultado con la búsqueda aleatoria ... Simplemente entreno conjuntos de Bossting de gradiente en 'pocos' datos, por lo que para mí, el tiempo no es un problema ...