Funciones que no son eficientemente computables pero que se pueden aprender

Sabemos que (véanse, por ejemplo, los Teoremas 1 y 3 de [1]), en términos generales, en condiciones adecuadas, las funciones que pueden calcularse eficientemente por la máquina de Turing en tiempo polinómico ("eficientemente computable") pueden expresarse mediante redes neuronales polinómicas con tamaños razonables, y por lo tanto se puede aprender con la complejidad de la muestra polinómica ("aprendible") bajo cualquier distribución de entrada.

Aquí "aprendible" solo se refiere a la complejidad de la muestra, independientemente de la complejidad computacional.

Me pregunto acerca de un problema muy relacionado: ¿existe una función que la máquina de Turing no pueda calcular de manera eficiente en tiempo polinómico ("no eficientemente computable"), pero mientras tanto, se puede aprender con la complejidad de la muestra polinómica ("aprendible") bajo cualquier distribución de entrada?

[1] Roi Livni, Shai Shalev-Shwartz, Ohad Shamir, " Sobre la eficiencia computacional del entrenamiento de redes neuronales ", 2014

— Minkov
fuente

Estoy en desacuerdo con "y así se puede aprender". Hay funciones computables muy eficientes (por ejemplo, DFA) que son MUY difíciles de aprender, incluso aproximadamente.

— Aryeh

Probablemente este no sea el punto, pero ¿qué pasa con la clase de (digamos) funciones booleanas imparciales? (Es decir, más o menos, una función aleatoria con cada valor independientemente con probabilidad ). Para cualquier , el aprendizaje PAC bajo la distribución uniforme es trivial (se necesita 0 muestra, la función constante es una buena hipótesis), pero parece que cualquier algoritmo de evaluación necesitaría pasar tiempo superpolinomial (ya que no hay estructura para la función). Sin embargo, lo más probable es que no entienda la pregunta.

2^{- \sqrt{n}}

$2^{-\sqrt{n}}$

1

$1$

2^{- \sqrt{n}}

$2^{-\sqrt{n}}$

ε > 2^{- \sqrt{n}}

$\varepsilon > 2^{-\sqrt{n}}$

0

$0$

— Clemente C.

Tu terminología es un poco confusa. Cuando decimos "eficientemente aprendible", generalmente nos referimos a la eficiencia computacional. Solo decir "aprendible" es suficiente para implicar la eficiencia de la muestra.

— Lev Reyzin

@Minkov Para que PAC aprenda, debe aprender con respecto a cualquier distribución. De lo contrario, la pregunta no es interesante (como señala Clement).

— Lev Reyzin

¿Por qué la gente vota para cerrar? ¡Creo que esta es una pregunta profunda y sutil!

— Aryeh

Formalizaré una variante de esta pregunta donde "eficiencia" se reemplaza por "computabilidad".

Sea la clase de concepto de todos los lenguajes reconocible por las máquinas de Turing en estados o menos. En general, para y , el problema de evaluar es indecidible. $C_n$ $L\subseteq\Sigma^*$ $n$ $x\in\Sigma^*$ $f\in C_n$ $f(x)$

Sin embargo, supongamos que tenemos acceso a un oráculo de aprendizaje PAC (adecuado, realizable) para . Es decir, para cualquier , el oráculo solicita una muestra etiquetada de tamaño modo que, suponiendo que dicha muestra se extraiga de una distribución desconocida , el oráculo genera una hipótesis que, con una probabilidad de al menos , tiene un error de generalización no mayor que . Mostraremos que este oráculo no es computable por Turing. $A$ $C_n$ $\epsilon,\delta>0$ $m_0(n,\epsilon,\delta)$ $D$ $A$ $\hat f\in C_n$ $1-\delta$ $D$ $\epsilon$

En realidad, vamos a demostrar que un problema más sencillo es indecidible: Uno de determinar, dada una muestra marcada , si existe un consonancia con . Supongamos (para contradecir) que es una máquina de Turing que decide el problema de consistencia. $S$ $f\in C_n$ $S$ $K$

Hacemos las siguientes convenciones de notación. Identifique con mediante el ordenamiento lexicográfico habitual. Para , decimos que un TM "S-imprime" si acepta todas las cadenas en correspondientes a los índices st y no acepte (posiblemente no deteniendo) ninguna de las cadenas correspondientes a los índices . Dado que (por supuesto) es decidible, se deduce que la función , definida como la más pequeña, de modo que alguna TM en $\Sigma^*$ $\mathbb{N}=\{0,1,2,\ldots\}$ $x\in\{0,1\}^*$ $M$ $x$ $\Sigma^*$ $i$ $x_i=1$ $x_i=0$ $K$ $\tilde K:x\mapsto k$ $k$ $C_k$ S-imprime , es computable por Turing. Además, se deduce que la función , que asigna una a la cadena menor (lexicográficamente) tal que , también es computable. $x$ $g:k\mapsto x$ $k\in\mathbb{N}$ $x\in\{0,1\}^*$ $\tilde K(x)>k$

Ahora defina la TM siguiente manera: S-imprime , donde es la codificación de , denota longitud de la cadena, y la recursión teorema se invoca para afirmar la existencia de un tal . Entonces tiene alguna longitud de codificación,, y S-imprime alguna cadena, . Por construcción, , por lo que no puede ser impreso en S por ninguna TM con una longitud de descripción $M$ $M$ $g(|\langle M\rangle|)$ $\langle M\rangle$ $M$ $|x|$ $M$ $M$ $\ell=|\langle M\rangle|$ $x_M\in\{0,1\}^*$ $\tilde K(x_M)>\ell$ $x_M$ $\ell$ o más corto Y, sin embargo, se define como la salida de impresión S de una TM con una longitud de descripción --- una contradicción. $\ell$

— Aria
fuente

Reto: convertir mi argumento "infinitario" a través de la computabilidad en uno finito a través de la eficiencia. Creo que la respuesta a la pregunta de @ minkov es negativa: no se puede aprender eficientemente una clase de función que no se puede evaluar de manera eficiente. Creo que esto seguirá siendo cierto si te mueves más allá del PAC adecuado o realizable.

— Aryeh