La búsqueda aleatoria tiene una probabilidad del 95% de encontrar una combinación de parámetros dentro del 5% óptimo con solo 60 iteraciones. También en comparación con otros métodos, no se atasca en óptimos locales.
Consulte esta gran publicación de blog en Dato de Alice Zheng, específicamente la sección Algoritmos de ajuste de hiperparámetros .
Me encantan las películas donde gana el desvalido, y me encantan los documentos de aprendizaje automático en los que se demuestra que las soluciones simples son sorprendentemente efectivas. Este es el argumento de "Búsqueda aleatoria para la optimización de hiperparámetros" de Bergstra y Bengio. [...] La búsqueda aleatoria no se tomaba muy en serio antes. Esto se debe a que no busca en todos los puntos de la cuadrícula, por lo que no puede superar el óptimo encontrado por la búsqueda de cuadrícula. Pero luego llegaron Bergstra y Bengio. Mostraron que, en sorprendentemente muchos casos, la búsqueda aleatoria se realiza tan bien como la búsqueda de cuadrícula. En general, probar 60 puntos aleatorios muestreados de la cuadrícula parece ser lo suficientemente bueno.
En retrospectiva, hay una explicación probabilística simple para el resultado: para cualquier distribución en un espacio muestral con un máximo finito, el máximo de 60 observaciones aleatorias se encuentra dentro del 5% superior del máximo verdadero, con un 95% de probabilidad. Eso puede sonar complicado, pero no lo es. Imagine el intervalo del 5% alrededor del máximo verdadero. Ahora imagine que tomamos muestras de puntos de su espacio y vemos si alguno de ellos cae dentro de ese máximo. Cada sorteo aleatorio tiene un 5% de posibilidades de aterrizar en ese intervalo, si sacamos n puntos independientemente, entonces la probabilidad de que todos pierdan el intervalo deseado es
( 1 - 0.05 )norte. Entonces, la probabilidad de que al menos uno de ellos logre alcanzar el intervalo es 1 menos esa cantidad. Queremos al menos una probabilidad de éxito de .95. Para calcular la cantidad de sorteos que necesitamos, solo resuelve n en la ecuación:
1 - ( 1 - 0.05 )norte> 0,95
Obtenemos . Ta-da!n ⩾ 60
La moraleja de la historia es: si la región cercana a la óptima de hiperparámetros ocupa al menos el 5% de la superficie de la cuadrícula, entonces la búsqueda aleatoria con 60 ensayos encontrará esa región con alta probabilidad.
Puede mejorar esa posibilidad con un mayor número de ensayos.
Con todo, si tiene demasiados parámetros para ajustar, la búsqueda de cuadrícula puede volverse inviable. Ahí es cuando intento una búsqueda aleatoria.