Como escribí en los comentarios, esta pregunta me parece demasiado amplia, pero intentaré responder. Con el fin de establecer algunos límites, comenzaré con un poco de matemática que subyace a la mayoría de ML y luego me concentraré en los resultados recientes para DL.
El equilibrio de sesgo-varianza se menciona en innumerables libros, cursos, MOOC, blogs, tweets, etc. en ML, por lo que no podemos comenzar sin mencionarlo:
E[(Y−f^(X))2|X=x0]=σ2ϵ+(Ef^(x0)−f(x0))2+E[(f^(x0)−Ef^(x0))2]=Irreducible error + Bias2 + Variance
Prueba aquí: https://web.stanford.edu/~hastie/ElemStatLearn/
El teorema de Gauss-Markov (sí, la regresión lineal seguirá siendo una parte importante del aprendizaje automático, no importa qué: lidiar con él) aclara que, cuando el modelo lineal es verdadero y algunos supuestos sobre el término de error son válidos, OLS tiene el mínimo error cuadrático medio (que en la expresión anterior es sólo ) sólo entre los imparciales estimadores lineales del modelo lineal. Por lo tanto, bien podría haber estimadores lineales con sesgo (o estimadores no lineales) que tengan un mejor error cuadrático medio y, por lo tanto, un mejor error de predicción esperado, que los MCO. Y esto allana el camino a todo el arsenal de regularización (regresión de crestas, LASSO, pérdida de peso, etc.) que es un caballo de batalla de ML. Aquí se proporciona una prueba (y en muchos otros libros):
Bias2 + Variancehttps://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467
Probablemente más relevante para la explosión de los enfoques de regularización, como señaló Carlos Cinelli en los comentarios, y definitivamente más divertido de aprender, es el teorema de James-Stein . Considere independientes, la misma varianza pero no las mismas variables aleatorias gaussianas medias:n
Xi|μi∼N(θi,σ2),i=1,…,n
en otras palabras, tenemos un vector aleatorio gaussiano de componentes . Tenemos una muestra de y queremos estimar . El estimador MLE (y también UMVUE) es obviamente . Considere el estimador James-Steinn−X∼N(θ,σ2I)xXθθ^MLE=x
θ^JS=(1−(n−2)σ2||x||2)x
Claramente, si , reduce la estimación de MLE hacia cero. El teorema de James-Stein establece que para , domina estrictamente , es decir, tiene un MSE más bajo . Sorprendentemente, incluso si nos encogemos hacia cualquier otra constante , todavía domina . Desde el(n−2)σ2≤||x||2θ^JS n≥4θ^JS θ^MLE∀ θc≠0θ^JSθ^MLEXison independientes, puede parecer extraño que, al tratar de estimar la altura de tres personas no relacionadas, incluida una muestra del número de manzanas producidas en España, pueda mejorar nuestra estimación en promedio . El punto clave aquí es "en promedio": el error cuadrado medio para la estimación simultánea de todos los componentes del vector de parámetros es menor, pero el error cuadrado para uno o más componentes bien puede ser mayor, y de hecho a menudo lo es, cuando tienes observaciones "extremas".
Descubrir que MLE, que de hecho era el estimador "óptimo" para el caso de estimación univariante, fue destronado para la estimación multivariada, fue un shock en ese momento y generó un gran interés en la contracción, mejor conocida como regularización en lenguaje ML. Uno podría notar algunas similitudes con los modelos mixtos y el concepto de "fuerza de endeudamiento": de hecho, hay alguna conexión, como se discute aquí
Visión unificada sobre la contracción: ¿cuál es la relación (si la hay) entre la paradoja de Stein, la regresión de cresta y los efectos aleatorios en modelos mixtos?
Referencia: James, W., Stein, C., Estimación con pérdida cuadrática . Actas del Cuarto Simposio de Berkeley sobre Estadística matemática y probabilidad, Volumen 1: Contribuciones a la teoría de la estadística, 361-379, University of California Press, Berkeley, California, 1961
El análisis de componentes principales es clave para el tema importante de la reducción de dimensiones, y se basa en la descomposición del valor singular : para cada matriz real (aunque el teorema se generaliza fácilmente a matrices complejas) podemos escribirN×pX
X=UDVT
donde de tamaño es ortogonal, es una matriz diagonal con elementos diagonales no negativos y de tamaño es nuevamente ortogonal. Para ver pruebas y algoritmos sobre cómo calcularlo, ver: Golub, G. y Van Loan, C. (1983), Matrix computations , John Hopkins University press, Baltimore.UN×pDp×pUp×p
El teorema de Mercer es la piedra angular de muchos métodos de ML diferentes: estrías de placas delgadas, máquinas de vectores de soporte, la estimación de Kriging de un proceso aleatorio gaussiano, etc. Básicamente, es uno de los dos teoremas detrás del llamado truco del núcleo . Deje que sea una función continua simétrica o núcleo. si es positivo semidefinido, entonces admite una base ortornormal de funciones propias correspondientes a valores propios no negativos:K(x,y):[a,b]×[a,b]→RK
K(x,y)=∑i=1∞γiϕi(x)ϕi(y)
La importancia de este teorema para la teoría de ML está atestiguada por la cantidad de referencias que obtiene en textos famosos, como por ejemplo el texto de Rasmussen & Williams sobre procesos gaussianos .
Referencia: J. Mercer, Funciones de tipo positivo y negativo, y su conexión con la teoría de ecuaciones integrales. Transacciones filosóficas de la Royal Society de Londres. Serie A, que contiene documentos de carácter matemático o físico, 209: 415-446, 1909
También hay una presentación más simple en Konrad Jörgens, Operadores integrales lineales , Pitman, Boston, 1982.
El otro teorema que, junto con el teorema de Mercer, establece la base teórica del truco del núcleo, es el teorema del representador . Supongamos que tiene un espacio muestral y un núcleo semidefinido simétrico positivo . También dejó ser los RKHS asociados con . Finalmente, deje que sea una muestra de entrenamiento. El teorema dice que entre todas las funciones , que admiten una representación infinita en términos de funciones propias deXK:X×X→RHKKS={xi,yi}ni=1f∈HKKDebido al teorema de Mercer, el que minimiza el riesgo regularizado siempre tiene una representación finita en la base formada por el núcleo evaluado en los puntos de entrenamiento, es decirn
minf∈HK∑i=1nL(yi,f(xi))+λ||f||2HK=min{cj}∞1∑i=1nL(yi,∑j∞cjϕj(xi))+λ∑j∞c2jγj=∑i=1nαiK(x,xi)
(El teorema es la última igualdad). Referencias: Wahba, G. 1990, Spline Models for Observational Data , SIAM, Philadelphia.
El teorema de aproximación universal ya ha sido citado por el usuario Tobias Windisch y es mucho menos relevante para el aprendizaje automático que para el análisis funcional, incluso si no lo parece a primera vista. El problema es que el teorema solo dice que dicha red existe, pero:
- no proporciona ninguna correlación entre el tamaño de la capa oculta y alguna medida de complejidad de la función objetivo , como por ejemplo, Variación total. Si y la requerida para un error fijo creció exponencialmente con , entonces una sola capa neural oculta Las redes serían inútiles.Nf(x)f(x)=sin(ωx):[0,2π]→[−1,1]Nϵω
- no dice si la red se puede aprender . En otras palabras, suponga que dados y , sabemos que un tamaño NN se aproximará a con la tolerancia requerida en el hipercubo. Luego, mediante el uso de conjuntos de entrenamiento de tamaño y un procedimiento de aprendizaje como, por ejemplo, respaldo, ¿tenemos alguna garantía de que al aumentar podamos recuperar ?F(x)fϵNfMMF
- finalmente, y lo peor de todo, no dice nada sobre el error de predicción de las redes neuronales. Lo que realmente estamos interesados es una estimación del error de predicción, al menos como media de todas las series de entrenamiento de tamaño . El teorema no ayuda a este respecto.M
Un punto de dolor menor con la versión de Hornik de este teorema es que no es válido para las funciones de activación de ReLU. Sin embargo, Bartlett ha demostrado desde entonces una versión extendida que cubre esta brecha.
Hasta ahora, supongo que todos los teoremas que consideraba eran conocidos por cualquiera. Así que ahora es el momento de lo divertido :-) Veamos algunos teoremas de Deep Learning :
Suposiciones
- la red neuronal profunda (para fijo , es la función que asocia las entradas de la red neuronal con sus salidas) y la pérdida de regularización son sumas positivas funciones homogéneas del mismo gradoΦ(X,W)WΦW(X)Θ(W)
- la función de pérdida es convexa y una vez diferenciable en , en un conjunto compactoL(Y,Φ(X,W)XS
Entonces:
- cualquier mínimo local para modo que una subred de tenga cero pesos, es un mínimo global ( Teorema 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
- por encima de un tamaño de red crítico, el descenso local siempre convergerá a un mínimo global desde cualquier inicialización ( Teorema 2 ).
Esto es muy interesante: los CNN hechos solo de capas convolucionales, ReLU, agrupación máxima, ReLU completamente conectada y capas lineales son funciones positivamente homogéneas , mientras que si incluimos funciones de activación sigmoidea, esto ya no es cierto, lo que puede explicar en parte el superior rendimiento en algunas aplicaciones de ReLU + max pooling con respecto a los sigmoides. Además, los teoremas solo se mantienen si también es positivamente homogéneo en del mismo grado que . Ahora, el hecho divertido es que la regularización o , aunque positivamente homogénea, no tiene el mismo grado de (el grado deΘWΦl1l2ΦΦ, en el caso simple de CNN mencionado anteriormente, aumenta con el número de capas). En cambio, los métodos de regularización más modernos, como la normalización por lotes y la ruta SGD, corresponden a una función de regularización positivamente homogénea del mismo grado que , y el abandono, aunque no se ajusta exactamente a este marco, tiene fuertes similitudes con él. Esto puede explicar por qué, para obtener una alta precisión con las regularización y no es suficiente, ¡pero necesitamos emplear todo tipo de trucos diabólicos, como la deserción y la normalización de lotes! Que yo sepa, esto es lo más parecido a una explicación de la eficacia de la normalización de lotes, que por lo demás es muy oscura, como lo señaló correctamente Al Rahimi en su charla.Φl1l2
Otra observación que algunas personas hacen, basada en el Teorema 1 , es que podría explicar por qué ReLU funciona bien, incluso con el problema de las neuronas muertas . Según esta intuición, el hecho de que, durante el entrenamiento, algunas neuronas ReLU "mueren" (pasan a activación cero y luego nunca se recuperan de eso, ya que para el gradiente de ReLU es cero) es "una característica, no un error ", porque si hemos alcanzado un mínimo y una subred completa ha muerto, es probable que alcancemos un mínimo global (según las hipótesis del Teorema 1x<0) Puede que me falte algo, pero creo que esta interpretación es descabellada. En primer lugar, durante el entrenamiento, las ReLU pueden "morir" mucho antes de que alcancemos un mínimo local. En segundo lugar, debe demostrarse que cuando las unidades ReLU "mueren", siempre lo hacen en una subred completa: el único caso en el que esto es trivialmente cierto es cuando solo tiene una capa oculta, en cuyo caso, por supuesto, cada neurona es Una subred. Pero, en general, sería muy cauteloso al ver que las "neuronas muertas" son algo bueno.
Referencias
B. Haeffele y R. Vidal, Optimización global en la formación de redes neuronales , en la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 2017.
B. Haeffele y R. Vidal. Optimización global en factorización de tensor, aprendizaje profundo y más allá , arXiv, abs / 1506.07540, 2015.
La clasificación de imágenes requiere representaciones de aprendizaje que son invariables (o al menos robustas, es decir, muy débilmente sensibles) a diversas transformaciones como ubicación, pose, punto de vista, iluminación, expresión, etc., que comúnmente están presentes en imágenes naturales, pero que no contienen información para la tarea de clasificación. Lo mismo para el reconocimiento de voz: cambios de tono, volumen, ritmo, acento. etc. no debe conducir a un cambio en la clasificación de la palabra. Las operaciones como convolución, agrupación máxima, agrupación promedio, etc., utilizadas en CNN tienen exactamente este objetivo, por lo que intuitivamente esperamos que funcionen para estas aplicaciones. ¿Pero tenemos teoremas para apoyar esta intuición? Hay un teorema de invariancia de traducción vertical, que, a pesar del nombre, no tiene nada que ver con la traducción en la dirección vertical, pero es básicamente un resultado que dice que las características aprendidas en las siguientes capas se vuelven cada vez más invariables, a medida que aumenta el número de capas. Esto se opone a un teorema de invariancia de traducción horizontal más antiguo que, sin embargo, es válido para las redes de dispersión, pero no para las CNN. El teorema es muy técnico, sin embargo:
- suponga que (su imagen de entrada) es integrable al cuadradof
- suponga que su filtro conmuta con el operador de traducción , que asigna la imagen de entrada a una copia traducida de sí mismo . Un núcleo de convolución aprendido (filtro) satisface esta hipótesis.TtfTtf
- suponga que todos los filtros, no linealidades y agrupaciones en su red satisfacen una llamada condición de admisibilidad débil , que es básicamente una especie de regularidad débil y condiciones de límite. Estas condiciones son satisfechas por el núcleo de convolución aprendido (siempre y cuando se realice alguna operación de normalización en cada capa), ReLU, sigmoide, tanh, etc., no linealidades, y por agrupación promedio, pero no por agrupación máxima. Por lo tanto, cubre algunas (no todas) arquitecturas CNN del mundo real.
- Supongamos finalmente que cada capa tiene un factor de agrupación , es decir, la agrupación se aplica en cada capa y descarta efectivamente la información. La condición también sería suficiente para una versión más débil del teorema.nSn>1Sn≥1
Indique con la salida de la capa de la CNN, cuando la entrada es . Entonces finalmente:Φn(f)nf
limn→∞|||Φn(Tff)−Φn(f)|||=0
(las barras triples no son un error), lo que básicamente significa que cada capa aprende características que se vuelven cada vez más invariables, y en el límite de una red infinitamente profunda tenemos una arquitectura perfectamente invariable. Dado que las CNN tienen un número finito de capas, no son perfectamente invariantes en la traducción, algo que los practicantes conocen bien.
Referencia: T. Wiatowski y H. Bolcskei, Una teoría matemática de redes neuronales convolucionales profundas para la extracción de características , arXiv: 1512.06293v3 .
Para concluir, numerosos límites para el error de generalización de una red neuronal profunda basada en su dimensión Vapnik-Chervonkensis o en la complejidad de Rademacher crecen con el número de parámetros (algunos incluso exponencialmente), lo que significa que no pueden explicar por qué los DNN funcionan tan bien en la práctica, incluso cuando el número de parámetros es considerablemente mayor que el número de muestras de entrenamiento. De hecho, la teoría VC no es muy útil en Deep Learning.
Por el contrario, algunos resultados del año pasado vinculan el error de generalización de un clasificador DNN con una cantidad que es independiente de la profundidad y el tamaño de la red neuronal, pero que depende solo de la estructura del conjunto de entrenamiento y el espacio de entrada. Bajo algunos supuestos bastante técnicos sobre el procedimiento de aprendizaje, y sobre el conjunto de entrenamiento y el espacio de entrada, pero con muy pocos supuestos sobre el DNN (en particular, los CNN están completamente cubiertos), entonces con probabilidad de al menos , tenemos1−δ
GE≤2log2NyNγm−−−−−−−−−−√+2log(1/δ)m−−−−−−−−−√
dónde:
- GE es el error de generalización, definido como la diferencia entre la pérdida esperada (la pérdida promedio del clasificador aprendido en todos los puntos de prueba posibles) y la pérdida empírica (solo el error de conjunto de entrenamiento bueno)
- Ny es el número de clases
- m es el tamaño del conjunto de entrenamiento
- Nγ es el número de cobertura de los datos, una cantidad relacionada con la estructura del espacio de entrada y con la separación mínima entre puntos de diferentes clases en el conjunto de entrenamiento. Referencia:
J. Sokolic, R. Giryes, G. Sapiro y M. Rodrigues. Error de generalización de clasificadores invariantes . En AISTATS, 2017