Agradezco a Aryeh por hacerme esta pregunta.
Como otros han mencionado, la respuesta a (1) es Sí , y el método simple de Minimización empírica de riesgos en C logra la complejidad de la muestra O((d/ε)log(1/ε)) (ver Vapnik y Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler y Warmuth, 1989).
En cuanto a (2), de hecho se sabe que existen espacios C
donde ningún algoritmo de aprendizaje adecuado logra una complejidad de muestra mejor que Ω((d/ε)log(1/ε)) y, por lo tanto, el aprendizaje adecuado no puede lograr el O(d/ε) óptimo ( d / ε ) complejidad de la muestra. Que yo sepa, este hecho nunca se ha publicado, pero se basa en un argumento relacionado de Daniely y Shalev-Shwartz (COLT 2014) (originalmente formulado para una pregunta diferente, pero relacionada, en el aprendizaje multiclase).
Considere el caso sencillo d=1 , y poner el espacio X como {1,2,...,1/ε} , y C es singletons fz(x):=I[x=z],z∈X : es decir, cada clasificador en C clasifica exactamente un punto de X como 1 y los otros como 0. Para el límite inferior, tome la función objetivo como un singleton aleatorio fx∗ , donde x∗∼Uniform(X) , y P , la distribución marginal de X , es uniforme en X∖{x∗} . Ahora el alumno nunca ve ningún ejemplo etiquetado como 1 , pero debe elegir un punto z para adivinar que está etiquetado como 1 (lo más importante, la función `` todo cero '' no está en C, Por lo que cualquier aprendiz adecuada debe adivinar algunos z ), y hasta que se ha visto todos los puntos en X∖{x∗} que tiene al menos 1/2 probabilidad de adivinar mal (es decir, la probabilidad posterior de su fz que tiene z≠x∗ es al menos 1/2 ). El argumento del colector de cupones implica que requeriría Ω ( ( 1 / ε ) log( 1 / ε ) )muestras para ver cada punto en X∖ { x∗} . Esto prueba un límite inferior de Ω ( ( 1 / ε ) log( 1 / ε ) ) para todos los alumnos adecuados.
Para General re> 1 , tomamos X como { 1 , 2 , . . . , d/ (4ε)} , tome C como clasificadores yoUNA para los conjuntos A ⊂ X de tamaño exactamente re , elija la función objetivo al azar de C y vuelva a tomar PAG como uniforme solo en los puntos donde la función objetivo clasifica 0 0 ( para que el alumno nunca vea un punto etiquetado como 1) Entonces, una generalización del argumento del colector de cupones implica que necesitamos Ω ( ( d/ ε)log( 1 / ε ) ) muestras para ver al menos El | XEl | -2d puntos distintos de X , y sin ver esta cantidad de puntos distintos de cualquier alumno adecuada tiene por lo menos 1 / 3 la posibilidad de adquirir mayor que re/ 4 de su conjetura UNA de re puntos equivocada en su hipótesis elegido hUNA, lo que significa que su tasa de error es mayor que ε . Entonces, en este caso, no existe un alumno adecuado con una complejidad de muestra menor que Ω ( ( d/ ε)log( 1 / ε ) ) , lo que significa que ningún alumno adecuado logra la complejidad óptima de la muestra O ( d/ ε) .
Tenga en cuenta que el resultado es bastante específico para el espacio C construido. Existen espacios C donde los alumnos adecuados pueden lograr la complejidad de muestra óptima O ( d/ ε) , e incluso la expresión completa exacta O ( ( d/ ε)+(1 / ε)log( 1 / δ) ) de ( Hanneke, 2016a). Se han desarrollado algunos límites superiores e inferiores para estudiantes de ERM generales en (Hanneke, 2016b), cuantificados en términos de propiedades del espacio C, además de analizar algunos casos más especializados en los que los alumnos adecuados específicos a veces pueden lograr la complejidad de la muestra óptima.
Referencias
Vapnik y Chervonenkis (1974). Teoría del reconocimiento de patrones. Nauka, Moscú, 1974.
Blumer, Ehrenfeucht, Haussler y Warmuth (1989). Aprendizaje y la dimensión Vapnik-Chervonenkis. Revista de la Asociación de Maquinaria Informática, 36 (4): 929–965.
Daniely y Shalev-Shwartz (2014). Estudiantes óptimos para problemas multiclase. En Actas de la 27ª Conferencia sobre Teoría del Aprendizaje.
Hanneke (2016a). La complejidad de la muestra óptima del aprendizaje PAC. Revista de investigación de aprendizaje automático, vol. 17 (38), págs. 1-15.
Hanneke (2016b). Límites de error refinados para varios algoritmos de aprendizaje. Revista de investigación de aprendizaje automático, vol. 17 (135), págs. 1-55.