La norma es usar cualquier optimizador global que desee. El problema es que la superficie EI es altamente multimodal y está desconectada; optimizar esta función de adquisición es un problema no trivial en sí mismo.
Una opción común que he visto en varios documentos es el algoritmo DIRECTO ; a veces he visto CMA-ES, que es un método de vanguardia en optimización no lineal. En mi experiencia para otras formas de optimización, MCS ( Multi-Level Coordinate Search ) tiende a funcionar relativamente bien. Puede encontrar una revisión de optimizadores globales sin derivados aquí :
- Rios y Sahinidis, "Optimización libre de derivados: una revisión de algoritmos y comparación de implementaciones de software", Journal of Global Optimization (2013).
Por cierto, la EI es analítica, por lo que si lo desea, también puede calcular su gradiente para guiar la optimización, pero esto no es necesario. Una técnica efectiva es ejecutar un optimizador global primero para encontrar soluciones prometedoras y luego ejecutar un optimizador local para refinarlo (por ejemplo, un método cuasi-Newton como BFGS, que es fminunc en MATLAB; o fmincon si tiene restricciones).
Finalmente, si la velocidad de optimización de la función de adquisición es un factor (que no es el escenario BO "tradicional"), he encontrado resultados decentes comenzando con un diseño de hipercubo latino o un diseño de secuencia de Sobol cuasialeatorio, luego refinado con unos pocos pasos de un optimizador local desde los mejores puntos; vea también el comentario @ user777. Como este no es el escenario BO estándar, no tengo ninguna referencia específica que realmente use este método.
Ejemplos de documentos que se refieren a DIRECT o CMA-ES:
- Calandra, R., Seyfarth, A., Peters, J. y Deisenroth, MP (2015). Optimización bayesiana para aprender a andar bajo incertidumbre. Anales de Matemáticas e Inteligencia Artificial, 1-19 ( enlace ).
- Mahendran, N., Wang, Z., Hamze, F. y Freitas, ND (2012). MCMC adaptativo con optimización bayesiana. En Conferencia Internacional sobre Inteligencia Artificial y Estadísticas (pp. 751-760) ( enlace ).
- Gunter, T., Osborne, MA, Garnett, R., Hennig, P. y Roberts, SJ (2014). Muestreo para inferencia en modelos probabilísticos con cuadratura bayesiana rápida. En Avances en sistemas de procesamiento de información neuronal (pp. 2789-2797) ( enlace ).
Puede simplemente buscar en Google "optimización bayesiana" + el algoritmo de optimización global deseado, y encontrará un montón de documentos. Además, en casi todos los demás artículos sobre BO encontrarás una oración como :
[...] BO generalmente requiere un optimizador global auxiliar en cada iteración para optimizar la función de adquisición. Es habitual en la literatura de la BO utilizar DIvided RECTangles (DIRECT) para realizar tal tarea. También podrían aplicarse otros algoritmos de optimización global como CMA-ES.