¿Existe un método general para expresar el problema de optimización como hamiltoniano?

Digamos que tenemos un problema de optimización en la forma:

min_{x} f (x) g_{i} (x) \leq 0, i = 1, . . ., m h_{j} (x) = 0, j = 1, . . ., p,

$\min_x f(x) \\ g_i(x) \leq 0, i = 1, ..., m \\ h_j(x) = 0, j = 1, ..., p,$

donde $f(x)$ es una función objetivo, $g_i(x)$ son restricciones de desigualdad y $h_j(x)$ son restricciones de igualdad.

Recientemente estaba leyendo sobre la computación cuántica adiabática . La Wikipedia dice:

Primero, se encuentra un hamiltoniano (potencialmente complicado) cuyo estado fundamental describe la solución al problema de interés. A continuación, se prepara un sistema con un Hamiltoniano simple y se inicializa al estado fundamental. Finalmente, el hamiltoniano simple evoluciona adiabáticamente al hamiltoniano complicado deseado. Según el teorema adiabático, el sistema permanece en el estado fundamental, por lo que al final el estado del sistema describe la solución del problema. La computación cuántica adiabática ha demostrado ser polinomialmente equivalente a la computación cuántica convencional en el modelo de circuito.

¿Existe algún método general para expresar el problema de optimización (por ejemplo, como se presentó anteriormente) en el formalismo hamiltoniano utilizado en la computación cuántica adiabática ?

adiabatic-model optimization

— brzepkowski
fuente

No estoy seguro de qué tan formal es la respuesta que desea, pero generalmente define una función de costo que está lejos de la solución y es mínima en la solución. Luego traduce esta función de costo al lenguaje de giro Pauli (supongo que es este paso que le gustaría aclarar). Una vez que su función de costo está en el idioma de giro, es su Hamiltoniano. Si estaba buscando cadenas binarias, por ejemplo, puede usar el hecho de que (I-Zi) / 2 devolverá el valor del bit i. Si esto es lo que quieres, puedo intentar escribirlo mañana si tengo tiempo

— bRost03

¿Podría mostrar algún ejemplo como respuesta? Sería maravilloso :)

— brzepkowski

Consulte arxiv.org/abs/1302.5843 (Lucas Ising 2014) para ver muchos ejemplos.

— Paradoja

Como se solicitó en los comentarios, aquí hay un ejemplo trabajado. El cuerpo principal se ocupa de minimizar para un problema específico. En la parte inferior sigue una breve discusión de las restricciones y luego una breve discusión sobre el caso general. $f(x)$

Vamos a resolver el problema de corte máximo ponderado ya que esto

Es un ejemplo relativamente sencillo
Es duro clásicamente
Es un ejemplo relativamente común en la literatura (por ejemplo, https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.90.067903 )
Tiene una conexión clara con un hamiltoniano físico (Ising spin-glasses)

Para comprender el problema, comenzamos con un gráfico no dirigido de vértices , donde cada vértice tiene un peso y cada borde que conecta y tiene un peso . Luego cortamos el gráfico en dos partes. No es necesario que el corte sea recto, pero no debe auto-intersectarse y no puede cortar ningún borde dos veces. Luego calculamos un " pago " para nuestro corte. El pago es la suma de los pesos de los bordes que cortamos, más la suma de los pesos de los vértices en un lado del corte. $n$ $\{V\}$ $v_i\in V$ $w_i\geq0$ $v_i$ $v_j$ $w_{ij}\geq0$ $P$ $^1$

Fuente

En esta imagen, el pago sería, para los bordes más para los vértices (suponiendo que el número dentro de cada vértice sea su peso) . El problema de optimización es maximizar para un gráfico dado . $1+4+3+3+2 = 13$ $5+6+1 = 12$ $\to P=25$ $P$ $^2$

Para escribir esto matemáticamente, podemos pensar en términos de cadenas de bits. Definimos un corte por una cadena donde no se cuenta en la suma y se cuenta en la suma. Para hacer las matemáticas un poco más limpias, si el gráfico no está completamente conectado, haga que el gráfico esté completamente conectado y establezca para cualquier par no conectado . $s\in\{0,1\}^n$ $s_i=0\to v_i$ $s_i=1\to v_i$ $w_{ij}=0$ $v_i,v_j$

Por ejemplo, mirando de nuevo la imagen de arriba, interpretemos los números dentro de los vértices como el índice de vértice en lugar del peso como supusimos anteriormente. Entonces el corte dibujado corresponde a . están en el lado "bueno" del corte y se cuentan, mientras que están en el lado "malo" del corte y no se cuentan . $s=100011$ $s_1=s_5=s_6=1\to v_1, v_5, v_6$ $s_2=s_3=s_4=0$

Esto nos permite escribir

P (s) = \sum_{i} s_{i} w_{i} + \sum_{i, j} s_{i} (1 - s_{j}) w_{i j}

$P(s) = \sum_i s_i w_i + \sum_{i,j} s_i(1-s_j)w_{ij}$

El primer término solo cuenta los pesos de todos los vértices en el lado "bueno" del corte. El segundo término cuenta el peso de un borde si los vértices que conecta están en lados opuestos del corte. Tenga en cuenta que esto no cuenta dos veces, ya que solo cuenta el borde cuando y no cuando . $s_i=1, s_j=0$ $s_i=0, s_j=1$

Entonces, nuestro problema de optimización es encontrar la cadena que maximiza . La idea aquí es pensar en como una medida de energía de un sistema como el estado del sistema. Esto significa que podemos relacionar con nuestro hamiltoniano. Aquí hay una ligera sutilidad de que estamos tratando de maximizar pero generalmente hablamos de encontrar el estado fundamental de un hamiltoniano. Esto no es un problema, pero quería señalarlo: en su lugar, podemos ver el estado excitado con la energía más alta (estado anti-tierra si lo desea) o usar como nuestra función de energía y luego trabajar con el estado fundamental como normal El trabajo de Let con el más alto estado excitado y maximizar . $s$ $P(s)$ $P(s)$ $s$ $P(s)$ $P(s)$ $-P(s)$ $P$

Nos gustaría crear un hamiltoniano de modo que su estado de energía más alto sea modo que sea máximo. Esencialmente queremos convertir , una función de energía, en , un operador de energía. Hacemos esto al notar que para tenemos $|s_0\rangle$ $P(s_0)$ $P(s)$ $\hat{H}$ $|s\rangle\in\{|0\rangle,|1\rangle\}$

\frac{I - Z}{2} | s ⟩ = s | s ⟩ \to define {\hat{s}}_{i} = \frac{I - Z_{i}}{2}

$\frac{I-Z}{2}|s\rangle=s|s\rangle\to\text{ define } \hat{s}_i=\frac{I-Z_i}{2}$

Donde es el Pauli actuando en qubit . Ahora obtenemos nuestro Hamiltoniano reemplazando con (y 1 con ) en $Z_i$ $Z$ $i$ $s$ $\hat{s}$ $I$ $P$

H = \sum_{i} {\hat{s}}_{i} w_{i} + \sum_{i, j} {\hat{s}}_{i} (I - {\hat{s}}_{j}) w_{i, j} = \sum_{i} \frac{I - Z_{i}}{2} w_{i} + \sum_{i, j} \frac{I - Z_{i}}{2} (I - \frac{I - Z_{j}}{2}) w_{i, j}

$H=\sum_i \hat{s}_i w_i + \sum_{i,j} \hat{s}_i(I-\hat{s}_j)w_{i,j}=\sum_i\frac{I-Z_i}{2} w_i + \sum_{i,j} \frac{I-Z_i}{2}\left(I-\frac{I-Z_j}{2}\right)w_{i,j}$

Esto se puede limpiar expandiendo y viendo $\sum_{i,j}(Z_i-Z_j)=0\to$

H = \sum_{i} \frac{w_{i}}{2} (I - Z_{i}) + \sum_{i, j} \frac{w_{i j}}{4} (I - Z_{i} Z_{j}) = \sum_{i} \frac{w_{i}}{2} (I - Z_{i}) + \sum_{i < j} \frac{w_{i j}}{2} (I - Z_{i} Z_{j})

$H=\sum_i \frac{w_i}{2}\left(I-Z_i\right) + \sum_{i,j} \frac{w_{ij}}{4}\left(I-Z_iZ_j\right)=\sum_i \frac{w_i}{2}\left(I-Z_i\right) + \sum_{i<j} \frac{w_{ij}}{2}\left(I-Z_iZ_j\right)$

Podemos limpiar esto aún más multiplicando por 2 y eliminando un cambio de energía constante (elimine los términos ). Nuevo hamiltoniano con los mismos estados propios con valores propios escalados y desplazados (claramente la energía máxima no se ve afectada por estas transformaciones) $I$

H = - \sum_{i} w_{i} Z_{i} - \sum_{i < j} w_{i j} Z_{i} Z_{j}

$H=-\sum_i w_iZ_i - \sum_{i<j} w_{ij}Z_iZ_j$

Si eres un físico de materia condensada, probablemente reconocerás a este hamiltoniano como un vidrio giratorio Ising. No es realmente relevante para el problema, pero creo que es genial.

Entonces ahora tenemos un hamiltoniano cuyo estado (anti-) fundamental codifica la cadena de bits que maximiza y resuelve el problema. $s_0$ $P(s)$

Lo último que necesitamos es un Hamiltoniano inicial , que lentamente (adiabáticamente) transformamos en nuestro Hamiltoniano final para que podamos definir el Hamiltoniano completo $H_0$ $H$

H_{T} (t) = (1 - f (t)) H_{0} + f (t) H : f (0) = 0, f (t_{f}) = 1

$H_T(t)=(1-f(t))H_0 + f(t)H: f(0)=0, f(t_f)=1$

Como punto de partida, se usa a menudo por simplicidad. El mínimo determinado por la precisión deseada y la brecha espectral . La brecha espectral es la diferencia de energía mínima, sobre todo , entre el estado (anti-) fundamental y el siguiente estado de energía. El análisis de la brecha es altamente no trivial (consulte https://arxiv.org/abs/quant-ph/0509162 ) y determina la complejidad / eficiencia del algoritmo. No se garantiza que un algoritmo con 0 gap funcione en absoluto. $f(t)\propto t$ $t_f$ $^3$ $t$

Entonces queremos un tal que $H_0$

Podemos encontrar y preparar fácilmente su (anti) estado fundamental
La brecha espectral de no es exponencialmente pequeña en el tamaño del problema $H$

Para este problema, un buen Hamiltoniano inicial es porque su estado de energía más alto es fácil de encontrar, es . Es fácil de preparar, simplemente aplique a . No tengo tiempo para entrar en el análisis de la brecha espectral, pero es poco probable que este hamiltoniano sea ideal en ese sentido (ver https://arxiv.org/abs/1701.05584 ). $H_0 = \sum_i X_i$ $|+\rangle^{\otimes n}$ $H^{\otimes n}$ $|0\rangle^{\otimes n}$

Con esta elección de y tomando hemos terminado. Nuestro hamiltoniano es $H_0$ $f(t)=t/t_f$

H (t) = (1 - f (t)) \sum_{i} X_{i} - f (t) [\sum_{i} w_{i} Z_{i} + \sum_{i < j} w_{i j} Z_{i} Z_{j}]

$H(t) = \left(1-f(t)\right)\sum_i X_i-f(t)\left[\sum_i w_iZ_i + \sum_{i<j} w_{ij}Z_iZ_j\right]$

Comenzando en el estado , evolucionando según el Hamiltoniano anterior para el tiempo (elegir un adecuado es, nuevamente, generalmente altamente no trivial ) luego, medir en la base computacional debería devolver (con alta probabilidad) la cadena que maximiza . $|\psi_0\rangle = H^{\otimes n}|0\rangle^{\otimes n}$ $t_f$ $t_f$ $s=s_0$ $P(s)$

$^1$ Esto es ambiguo ya que por simetría cualquier lado lo hará. Podemos hacer esto riguroso, por ejemplo, haciendo el corte dirigido y luego tomando los vértices a la izquierda del corte al caminar a lo largo de la dirección del corte.

$^2$ Había dicho en el comentario que minimizamos una función de costo, si te gusta más, solo toma cost pago y minimiza el costo. $=-$

$^3$ Estoy barriendo algunos detalles sobre lo que significa "lento" debajo de la alfombra pero puede estar relacionado con la escala de energía del problema (es decir, multiplicar por una constante cambiará la velocidad). $H$

Restricciones

Digamos que queremos modificar el problema anterior para requerir que exactamente vértices estén en el lado "bueno" de nuestro corte. Matemáticamente esto es . Para hacer cumplir esto, agregamos un término de penalización en nuestro Hamiltoniano para soluciones que rompan esta restricción. Entonces, agregamos un término como eligiendo suficientemente grande como para garantizar que un estado que viola esta restricción no puede ser el estado de mayor energía. $5$ $\sum_i s_i-5=0$ $H_c = -\alpha\left(\sum_i \hat{s}_i -5I\right)^2$ $\alpha$

Digamos que queremos exigir que no haya más de vértices en el lado "bueno" de nuestro corte. Esto, al parecer, es bastante difícil de hacer. En https://arxiv.org/abs/1702.06248 afirman que la aproximación de una restricción de desigualdad al orden requiere -spin acoplamientos que requerirían aún más sobrecarga para divídalos en acoplamientos de 2 qubits, que a menudo es necesario en una arquitectura dada. Esencialmente, la estrategia es aproximar una función de paso usando un $5$ $k$ $\mathcal{O}\left(N^{2k}\right)$ $k$ $k^\text{th}$ orden polinomial. Esto parece una forma terrible de hacerlo, pero no puedo pensar en una mejor manera. Esto viene de Troyer en 2017, por lo que es relativamente poco probable, aunque ciertamente posible, que actualmente se conozca una mejor manera.

El caso general

La pregunta se refiere a un método general para codificar un problema de optimización en un hamiltoniano. Específicamente, queremos minimizar sujeto a un conjunto de restricciones. En la sección anterior discutí agregar las restricciones al hamiltoniano. Entonces, para una completamente general , ¿hay alguna forma de codificarla en un hamiltoniano? El método general para esto en la literatura es asumir que tenemos acceso a un oráculo cuántico eficiente que implementa . Podemos pensar que esto tiene una operación de caja negra (es decir, oráculo cuántico) tal que . Entonces podemos construir nuestro Hamiltoniano como $f(x)$ $f(x)$ $f(x)$ $\hat{f}(x)$ $\hat{f}(x)|x\rangle=f(x) |x\rangle$

H = \sum_{x} \hat{f} (x) | x ⟩ ⟨ x |

$H = \sum_x \hat{f}(x)|x\rangle\langle x|$ Por supuesto, esto simplemente empuja la parte difícil a encontrar / construir . De hecho, los argumentos de conteo simples muestran que casi todos (en el sentido matemático) los oráculos cuánticos son exponencialmente ineficientes para implementar (ver http://www.ar-tiste.com/imp-oracles/imps2.pdf ). Entonces, si bien esta es una codificación general de un problema de optimización en un Hamiltoniano, no es realmente práctico. Parecería ser el caso de que si desea codificar su problema de optimización en un Hamiltoniano de una manera útil , deberá aprovechar alguna estructura de . Tengo entendido que los detalles específicos de cómo hacer esto y cómo hacerlo de la mejor manera

\hat{f} (x)

$\hat{f}(x)$

f (x)

$f(x)$ no se entiende completamente y es objeto de una investigación activa.

— bRost03
fuente

El problema de maxcut está bien explicado en esta respuesta. Sin embargo, el problema de optimización se plantea de una manera que se desvía un poco del problema de corte máximo con respecto a las restricciones de igualdad y desigualdad.

— Bram

No hago demasiado con la optimización en mi trabajo. ¿Puedes dar un ejemplo específico que se ajuste a la forma dada? Puedo

— tratar de encontrar

He editado la respuesta para incluir una restricción de igualdad y discutir la dificultad de implementar una restricción de desigualdad

— bRost03

Editado más para agregar una propaganda sobre el caso general

— bRost03

¡Gran respuesta! Me interesaba especialmente en la parte que explica transición entre y .

s

$s$

\hat{s}

$\hat{s}$

— brzepkowski