Límites apropiados de dimensión de VC de aprendizaje de PAC

Es bien sabido que para una clase de concepto con VC dimensión , es suficiente obtener ejemplos etiquetados para PAC learn . ¿No me queda claro si el algoritmo de aprendizaje PAC (que utiliza estas muestras) es correcto o incorrecto? En los libros de texto de Kearns y Vazirani, así como de Anthony y Biggs, parece que el algoritmo de aprendizaje PAC es incorrecto (es decir, la hipótesis de salida no se encuentra en ) $\mathcal{C}$ $d$ $O\left(\frac{d}{\varepsilon}\log\frac{1}{\varepsilon}\right)$ $\mathcal{C}$ $\mathcal{C}$

¿Podría alguien aclarar si un límite superior similar es válido también para el entorno de aprendizaje PAC adecuado? Si es así, ¿podría darme una referencia donde esto se menciona explícitamente y también contiene una prueba independiente?
Recientemente, Hanneke mejoró este límite al deshacerse del factor . ¿Podría alguien aclarar si se sabe que es extraíble para la configuración de aprendizaje de PAC adecuado? ¿O es una pregunta abierta todavía? $\log(1/\varepsilon)$ $\log(1/\varepsilon)$

— Anónimo
fuente

¿A qué papel de Hanneke te refieres?

— gradstudent

@gradstudent arxiv.org/abs/1507.00473

— Clement C.

Respuestas:

Agradezco a Aryeh por hacerme esta pregunta.

Como otros han mencionado, la respuesta a (1) es Sí , y el método simple de Minimización empírica de riesgos en $\mathcal{C}$ logra la complejidad de la muestra $O((d/\varepsilon)\log(1/\varepsilon))$ (ver Vapnik y Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler y Warmuth, 1989).

En cuanto a (2), de hecho se sabe que existen espacios $\mathcal{C}$ donde ningún algoritmo de aprendizaje adecuado logra una complejidad de muestra mejor que $\Omega((d/\varepsilon)\log(1/\varepsilon))$ y, por lo tanto, el aprendizaje adecuado no puede lograr el $O(d/\varepsilon)$ óptimo complejidad de la muestra. Que yo sepa, este hecho nunca se ha publicado, pero se basa en un argumento relacionado de Daniely y Shalev-Shwartz (COLT 2014) (originalmente formulado para una pregunta diferente, pero relacionada, en el aprendizaje multiclase).

Considere el caso sencillo $d=1$ , y poner el espacio $\mathcal{X}$ como $\{1,2,...,1/\varepsilon\}$ , y $\mathcal{C}$ es singletons $f_z(x) := \mathbb{I}[x = z], z \in \mathcal{X}$ : es decir, cada clasificador en $\mathcal{C}$ clasifica exactamente un punto de $\mathcal{X}$ como $1$ y los otros como $0$ . Para el límite inferior, tome la función objetivo como un singleton aleatorio $f_{x^*}$ , donde $x^{*} \sim {\rm Uniform}(\mathcal{X})$ , y $P$ , la distribución marginal de $X$ , es uniforme en $\mathcal{X}\setminus\{x^*\}$ . Ahora el alumno nunca ve ningún ejemplo etiquetado como $1$ , pero debe elegir un punto $z$ para adivinar que está etiquetado como $1$ (lo más importante, la función `` todo cero '' no está en $\mathcal{C}$ , Por lo que cualquier aprendiz adecuada debe adivinar algunos $z$ ), y hasta que se ha visto todos los puntos en $\mathcal{X}\setminus\{x^*\}$ que tiene al menos $1/2$ probabilidad de adivinar mal (es decir, la probabilidad posterior de su $f_z$ que tiene $z \neq x^*$ es al menos $1/2$ ). El argumento del colector de cupones implica que requeriría $\Omega((1/\varepsilon)\log(1/\varepsilon))$ muestras para ver cada punto en $\mathcal{X} \setminus \{x^*\}$ . Esto prueba un límite inferior de $\Omega((1/\varepsilon)\log(1/\varepsilon))$ para todos los alumnos adecuados.

Para General $d>1$ , tomamos $\mathcal{X}$ como $\{1,2,...,d/(4\varepsilon)\}$ , tome $\mathcal{C}$ como clasificadores $\mathbb{I}_{A}$ para los conjuntos $A \subset \mathcal{X}$ de tamaño exactamente $d$ , elija la función objetivo al azar de $\mathcal{C}$ y vuelva a tomar $P$ como uniforme solo en los puntos donde la función objetivo clasifica $0$ ( para que el alumno nunca vea un punto etiquetado como $1$ ) Entonces, una generalización del argumento del colector de cupones implica que necesitamos $\Omega((d/\varepsilon)\log(1/\varepsilon))$ muestras para ver al menos $|\mathcal{X}| - 2d$ puntos distintos de $\mathcal{X}$ , y sin ver esta cantidad de puntos distintos de cualquier alumno adecuada tiene por lo menos $1/3$ la posibilidad de adquirir mayor que $d/4$ de su conjetura $A$ de $d$ puntos equivocada en su hipótesis elegido $h_{A}$ , lo que significa que su tasa de error es mayor que $\varepsilon$ . Entonces, en este caso, no existe un alumno adecuado con una complejidad de muestra menor que $\Omega((d/\varepsilon)\log(1/\varepsilon))$ , lo que significa que ningún alumno adecuado logra la complejidad óptima de la muestra $O(d/\varepsilon)$ .

Tenga en cuenta que el resultado es bastante específico para el espacio $\mathcal{C}$ construido. Existen espacios $\mathcal{C}$ donde los alumnos adecuados pueden lograr la complejidad de muestra óptima $O(d/\varepsilon)$ , e incluso la expresión completa exacta $O((d/\varepsilon)+(1/\varepsilon)\log(1/\delta))$ de ( Hanneke, 2016a). Se han desarrollado algunos límites superiores e inferiores para estudiantes de ERM generales en (Hanneke, 2016b), cuantificados en términos de propiedades del espacio $\mathcal{C}$ , además de analizar algunos casos más especializados en los que los alumnos adecuados específicos a veces pueden lograr la complejidad de la muestra óptima.

Referencias

Vapnik y Chervonenkis (1974). Teoría del reconocimiento de patrones. Nauka, Moscú, 1974.

Blumer, Ehrenfeucht, Haussler y Warmuth (1989). Aprendizaje y la dimensión Vapnik-Chervonenkis. Revista de la Asociación de Maquinaria Informática, 36 (4): 929–965.

Daniely y Shalev-Shwartz (2014). Estudiantes óptimos para problemas multiclase. En Actas de la 27ª Conferencia sobre Teoría del Aprendizaje.

Hanneke (2016a). La complejidad de la muestra óptima del aprendizaje PAC. Revista de investigación de aprendizaje automático, vol. 17 (38), págs. 1-15.

Hanneke (2016b). Límites de error refinados para varios algoritmos de aprendizaje. Revista de investigación de aprendizaje automático, vol. 17 (135), págs. 1-55.

— S. Hanneke
fuente

Interesante ... ¿Existe una caracterización combinatoria de las clases

para las cuales el aprendizaje PAC adecuado es óptimo para la muestra? O al menos condiciones suficientes (¿cierre bajo intersección, unión?)

C

$\mathcal{C}$

— Clement C.

@ClementC. No se conoce una caracterización completa de qué clases tienen tasas óptimas alcanzables por los alumnos adecuados en general. El documento referenciado "Límites de error refinados ..." ofrece una caracterización combinatoria de qué clases admiten tasas óptimas para todos los estudiantes de ERM (Corolario 14). La cantidad relevante es el "número de estrella": el mayor número de puntos de manera que uno puede voltear la etiqueta de cualquier punto sin cambiar los otros (Definición 9). Las clases de intersección cerrada tienen un alumno adecuado óptimo: el alg "cierre" (Teorema 5 en el documento, y también demostrado por Darnstädt, 2015).

— S. Hanneke

¡Gracias!

${}{}$

— Clement C.

Sus preguntas (1) y (2) están relacionadas. Primero, hablemos sobre el aprendizaje adecuado de PAC. Se sabe que hay aprendices de PAC adecuados que logran un error de muestra cero y, sin embargo, requieren ejemplos. Para una prueba simple de ladependencia, considere la clase de concepto de intervalosbajo la distribución uniforme. Si elegimos elintervalo constantemás pequeño, de hecho obtenemos una complejidad de muestra de. Supongamos, sin embargo, que elegimos elintervalo consistentemás grande, y el concepto objetivo es un intervalo de puntos como $\Omega(\frac{d}{\epsilon}\log\frac1\epsilon)$ $\epsilon$ $[a,b]\subseteq[0,1]$ $O(1/\epsilon)$ $[0,0]$ . Luego, un argumento simple de colector de cupones muestra que a menos que recibamos aproximadamente ejemplos, nos dejaremos engañar por el espacio entre los ejemplos negativos (el único tipo que veremos), que tiene un comportamiento característico de[tamaño de muestra] bajo la distribución uniforme. Los límites inferiores más generales de este tipo se dan en $\frac{1}{\epsilon}\log\frac1\epsilon$ $1/$

P. Auer, R. Ortner. Un nuevo PAC destinado a clases de concepto de intersección cerrada. Machine Learning 66 (2-3): 151-163 (2007) http://personal.unileoben.ac.at/rortner/Pubs/PAC-intclosed.pdf

Lo importante del PAC adecuado es que para obtener resultados positivos en el caso abstracto, no se puede especificar un algoritmo más allá de ERM, que dice "encontrar un concepto consistente con la muestra etiquetada". Cuando tiene una estructura adicional, como intervalos, puede examinar dos algoritmos ERM diferentes, como se indica arriba: un segmento consistente mínimo vs. máximo. ¡Y estos tienen diferentes complejidades de muestra!

El poder de un PAC inadecuado es que puedes diseñar varios esquemas de votación (Hanneke es el resultado), y esta estructura adicional te permite probar mejores tasas. (La historia es más simple para el PAC agnóstico, donde ERM le brinda la mejor tasa de caso más desfavorable posible, hasta constantes).

Editar. Ahora se me ocurre que la estrategia de predicción del gráfico de 1 inclusión de D. Haussler, N. Littlestone, Md K. Warmuth. Predicción de {0,1} -Funciones en puntos dibujados aleatoriamente. Inf. Comput 115 (2): 248-292 (1994) podría ser un candidato natural para el aprendiz PAC universal . $O(d/\epsilon)$

— Aria
fuente

¡Gracias! Ok, entonces, si te entiendo correctamente, la complejidad de la muestra del aprendizaje incorrecto de PAC es

y para el aprendizaje adecuado de PAC es

, siendo el límite inferior para este último logrado por el ejemplo que das. ¿Está bien?

Θ (d / ϵ)

$\Theta(d/\epsilon)$

Θ (d / ϵ \log (1 / ϵ))

$\Theta(d/\epsilon\log (1/\epsilon))$

— Anónimo

Sí, con la ligera reserva de que para un PAC incorrecto debe usar un algoritmo específico (Hanneke's), no cualquier ERM antiguo. Siéntase libre de aceptar la respuesta :)

— Aryeh

Llego tarde a la fiesta, pero ¿no es el límite inferior de Proper-PAC mencionado anteriormente un límite inferior de complejidad de muestra para un algoritmo de aprendizaje específico (o una clase restringida del mismo) solamente? Quiero decir, sin esa restricción no hay información, teóricamente no hay separación entre el PAC apropiado e incorrecto, ¿verdad? (¿Y por lo tanto no hay separación sin supuestos computacionales, como

o similar)?)

N P \neq R P

$NP\neq RP$

— Clemente C.

La definición habitual de capacidad de aprendizaje PAC requiere algoritmos de poli tiempo. Mis puntos son que (i) relajar eso, lo apropiado y lo incorrecto tienen la misma complejidad de muestra; (ii) con este requisito, no podemos probar una separación incondicional entre apropiado e impropio (ya que esencialmente probaría algo como NP no es igual a RP). (Sin embargo, podemos demostrar límites más bajos en la complejidad de la muestra de algoritmos de aprendizaje adecuados específicos , que hasta donde yo entiendo es lo que hace la referencia de Aryeh.)

— Clement C.

@ClementC. En uno de sus comentarios anteriores, que mencionó después de ejecutar un algoritmo PAC incorrecto, un alumno obtiene una hipótesis posiblemente incorrecta y luego puede encontrar la hipótesis adecuada más cercana de la clase de concepto (sin más muestras). Pero, ¿cómo podría hacer esto el alumno sin conocer la distribución bajo la cual se le están dando muestras? ¿No se mide lo más cercano de acuerdo con una distribución desconocida?

— Anónimo

Para agregar a la respuesta actualmente aceptada:

Si. El el límite superior de la complejidad de la muestra también es válido para el aprendizaje PAC adecuado(aunque es importante tener en cuenta que puede no conducir a un algoritmo de aprendizaje computacionalmente eficiente. Lo cual es normal, ya que a menos quese sepa que algunas clases son no se puede aprender de manera eficiente y adecuada en PAC (véase el Teorema 1.3 en el libro Kearns-Vazirani que usted menciona). Esto se muestra realmente en el libro de Kearns-Vazirani (Teorema 3.3), ya quehay un buscador de hipótesis consistente con clase hipótesis. Ver también [1].
$O (\frac{re}{ε} Iniciar sesión \frac{1}{ε})$ $O\left(\frac{d}{\varepsilon}\log\frac{1}{\varepsilon}\right)$ $\mathsf{NP}=\mathsf{RP}$ $L$ $\mathcal{H}=\mathcal{C}$
Desconocido. El algoritmo de Hanneke [2] es un algoritmo de aprendizaje inadecuado. Si este factor de adicional en la complejidad de la muestra se puede eliminar para un aprendizaje PAC adecuado (información teóricamente, es decir, dejando de lado cualquier requisito de eficiencia computacional) sigue siendo una cuestión abierta. Cf. Las preguntas abiertas al final de [3]: $\log(1/\varepsilon)$

Clásicamente, sigue siendo una pregunta abierta si el factor en el límite superior de [1] para el aprendizaje PAC adecuado es necesario. $\log(1/\varepsilon)$ $(\varepsilon, \delta)$

(La nota de pie de página 1 en el mismo documento también es relevante)

[1] A. Blumer, A. Ehrenfeucht, D. Haussler y MK Warmuth. Aprendizaje y la dimensión Vapnik-Chervonenkis. Journal of the ACM, 36 (4): 929–965, 1989.

[2] S. Hanneke. La complejidad óptima de la muestra del aprendizaje PAC. J. Mach. Aprender. Res. 17, 1, 1319-1333, 2016.

[3] S. Arunachalam y R. de Wolf. Óptima complejidad de la muestra cuántica de algoritmos de aprendizaje. En Actas de la 32a Conferencia de Complejidad Computacional (CCC), 2017.

— Clemente C.
fuente

¿Se conjetura que el gráfico de 1 inclusión de Haussler et al. ¿Es un alumno PAC tan óptimo?

— Aryeh

@Aryeh, no estoy seguro. Por lo que pude encontrar, Warmuth lo conjeturó en 2004. No sé más que eso.

— Clemente C.