La respuesta de Nick Alger es muy buena, pero voy a hacerlo un poco más matemático con un método de ejemplo, el método Metropolis-Hastings.
ijQ(i,j)Q(i,j)=Q(j,i)F(i)>0i
ij
min(1,F(j)F(i))
En otras palabras, si está más en forma, siempre lo tomamos, pero si está menos en forma, lo tomamos con probabilidad , de lo contrario lo intentamos nuevamente hasta que aceptemos un mutación.j F ( j )jjF(j)F(i)
Ahora nos gustaría explorar , la probabilidad real de que hagamos la transición de a .i jP(i,j)ij
Claramente es:
P(i,j)=Q(i,j)min(1,F(j)F(i))
Supongamos que . Entonces = 1, y así:min ( 1 , F ( j )F(j)≥F(i)min(1,F(j)F(i))
F(i)P(i,j)
=F(i)Q(i,j)min(1,F(j)F(i))
=F(i)Q(i,j)
=Q(j,i)min(1,F(i)F(j))F(j)
=F(j)P(j,i)
Ejecutando el argumento al revés, y también examinando el caso trivial donde , puede ver eso para todos y :i=jij
F(i)P(i,j)=F(j)P(j,i)
Esto es notable por algunas razones.
La probabilidad de transición es independiente de . Por supuesto, puede llevarnos un tiempo terminar en el atractor, y puede llevarnos un tiempo aceptar una mutación. Una vez que hagamos, la probabilidad de transición es totalmente dependiente de , y no en .QFQ
Resumiendo todo lo que :i
∑iF(i)P(i,j)=∑iF(j)P(j,i)
Claramente, debe sumar si sumas todo (es decir, las probabilidades de transición de un estado deben sumar ), por lo que obtienes:P(j,i)1i1
F(j)=∑iF(i)P(i,j)
Es decir, es la función de densidad de probabilidad (no normalizada) para la cual el método elige. No solo tiene la garantía de explorar todo el paisaje, sino que lo hace en proporción a la "adecuación" de cada estado.F
Por supuesto, este es solo un ejemplo de muchos; Como señalé a continuación, es un método muy fácil de explicar. Por lo general, usa un GA no para explorar un pdf, sino para encontrar un extremo, y puede relajar algunas de las condiciones en ese caso y aún garantizar la convergencia eventual con alta probabilidad.