¿Cuáles son los principales teoremas del aprendizaje automático (profundo)?


45

Al Rahimi recientemente dio una charla muy provocativa en NIPS 2017 comparando el aprendizaje automático actual con la alquimia. Una de sus afirmaciones es que necesitamos volver a los desarrollos teóricos, tener teoremas simples que demuestren resultados fundamentales.

Cuando dijo eso, comencé a buscar los teoremas principales para ML, pero no pude encontrar una buena referencia que tuviera sentido de los resultados principales. Así que aquí está mi pregunta: ¿cuáles son los principales teoremas matemáticos actuales (teoría) en ML / DL y qué prueban? Supongo que el trabajo de Vapnik iría a algún lado aquí. Como extra, ¿cuáles son los principales problemas teóricos abiertos?


3
@Tim Este tema es del tipo stats.stackexchange.com/questions/2379/… ("¿Cuáles son los grandes problemas en las estadísticas?").
whuber

2
Es un poco amplio. ¿Podría al menos especificar un subconjunto de Machine Learning? Si nos limitamos al aprendizaje profundo, o al menos al aprendizaje supervisado, se podría intentar una respuesta. Pero si insiste en algo como "Matemáticas del aprendizaje automático", una respuesta tardará años en escribirse.
DeltaIV

3
A la luz del ejemplo análogo de @ whuber, me inclino a decir que esto debería permanecer abierto como CW, especialmente si esto puede limitarse a un subconjunto específico de ML, como el aprendizaje supervisado , como lo solicita DeltaV.
gung - Restablece a Monica

3
@DeltaIV Tenga en cuenta que "Deep" está en el título.
ameba dice Reinstate Monica

44
Comprender esta pregunta fue el tema de una serie reciente de conferencias organizadas por David Donoho: ver stats385.github.io .
user795305

Respuestas:


43

Como escribí en los comentarios, esta pregunta me parece demasiado amplia, pero intentaré responder. Con el fin de establecer algunos límites, comenzaré con un poco de matemática que subyace a la mayoría de ML y luego me concentraré en los resultados recientes para DL.


El equilibrio de sesgo-varianza se menciona en innumerables libros, cursos, MOOC, blogs, tweets, etc. en ML, por lo que no podemos comenzar sin mencionarlo:

E[(Yf^(X))2|X=x0]=σϵ2+(Ef^(x0)f(x0))2+E[(f^(x0)Ef^(x0))2]=Irreducible error + Bias2 + Variance

Prueba aquí: https://web.stanford.edu/~hastie/ElemStatLearn/


El teorema de Gauss-Markov (sí, la regresión lineal seguirá siendo una parte importante del aprendizaje automático, no importa qué: lidiar con él) aclara que, cuando el modelo lineal es verdadero y algunos supuestos sobre el término de error son válidos, OLS tiene el mínimo error cuadrático medio (que en la expresión anterior es sólo ) sólo entre los imparciales estimadores lineales del modelo lineal. Por lo tanto, bien podría haber estimadores lineales con sesgo (o estimadores no lineales) que tengan un mejor error cuadrático medio y, por lo tanto, un mejor error de predicción esperado, que los MCO. Y esto allana el camino a todo el arsenal de regularización (regresión de crestas, LASSO, pérdida de peso, etc.) que es un caballo de batalla de ML. Aquí se proporciona una prueba (y en muchos otros libros): Bias2 + Variancehttps://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467

Probablemente más relevante para la explosión de los enfoques de regularización, como señaló Carlos Cinelli en los comentarios, y definitivamente más divertido de aprender, es el teorema de James-Stein . Considere independientes, la misma varianza pero no las mismas variables aleatorias gaussianas medias:n

Xi|μiN(θi,σ2),i=1,,n

en otras palabras, tenemos un vector aleatorio gaussiano de componentes . Tenemos una muestra de y queremos estimar . El estimador MLE (y también UMVUE) es obviamente . Considere el estimador James-SteinnXN(θ,σ2I)xXθθ^MLE=x

θ^JS=(1(n2)σ2||x||2)x

Claramente, si , reduce la estimación de MLE hacia cero. El teorema de James-Stein establece que para , domina estrictamente , es decir, tiene un MSE más bajo . Sorprendentemente, incluso si nos encogemos hacia cualquier otra constante , todavía domina . Desde el(n2)σ2||x||2θ^JS n4θ^JS θ^MLE θc0θ^JSθ^MLEXison independientes, puede parecer extraño que, al tratar de estimar la altura de tres personas no relacionadas, incluida una muestra del número de manzanas producidas en España, pueda mejorar nuestra estimación en promedio . El punto clave aquí es "en promedio": el error cuadrado medio para la estimación simultánea de todos los componentes del vector de parámetros es menor, pero el error cuadrado para uno o más componentes bien puede ser mayor, y de hecho a menudo lo es, cuando tienes observaciones "extremas".

Descubrir que MLE, que de hecho era el estimador "óptimo" para el caso de estimación univariante, fue destronado para la estimación multivariada, fue un shock en ese momento y generó un gran interés en la contracción, mejor conocida como regularización en lenguaje ML. Uno podría notar algunas similitudes con los modelos mixtos y el concepto de "fuerza de endeudamiento": de hecho, hay alguna conexión, como se discute aquí

Visión unificada sobre la contracción: ¿cuál es la relación (si la hay) entre la paradoja de Stein, la regresión de cresta y los efectos aleatorios en modelos mixtos?

Referencia: James, W., Stein, C., Estimación con pérdida cuadrática . Actas del Cuarto Simposio de Berkeley sobre Estadística matemática y probabilidad, Volumen 1: Contribuciones a la teoría de la estadística, 361-379, University of California Press, Berkeley, California, 1961


El análisis de componentes principales es clave para el tema importante de la reducción de dimensiones, y se basa en la descomposición del valor singular : para cada matriz real (aunque el teorema se generaliza fácilmente a matrices complejas) podemos escribirN×pX

X=UDVT

donde de tamaño es ortogonal, es una matriz diagonal con elementos diagonales no negativos y de tamaño es nuevamente ortogonal. Para ver pruebas y algoritmos sobre cómo calcularlo, ver: Golub, G. y Van Loan, C. (1983), Matrix computations , John Hopkins University press, Baltimore.UN×pDp×pUp×p


El teorema de Mercer es la piedra angular de muchos métodos de ML diferentes: estrías de placas delgadas, máquinas de vectores de soporte, la estimación de Kriging de un proceso aleatorio gaussiano, etc. Básicamente, es uno de los dos teoremas detrás del llamado truco del núcleo . Deje que sea ​​una función continua simétrica o núcleo. si es positivo semidefinido, entonces admite una base ortornormal de funciones propias correspondientes a valores propios no negativos:K(x,y):[a,b]×[a,b]RK

K(x,y)=i=1γiϕi(x)ϕi(y)

La importancia de este teorema para la teoría de ML está atestiguada por la cantidad de referencias que obtiene en textos famosos, como por ejemplo el texto de Rasmussen & Williams sobre procesos gaussianos .

Referencia: J. Mercer, Funciones de tipo positivo y negativo, y su conexión con la teoría de ecuaciones integrales. Transacciones filosóficas de la Royal Society de Londres. Serie A, que contiene documentos de carácter matemático o físico, 209: 415-446, 1909

También hay una presentación más simple en Konrad Jörgens, Operadores integrales lineales , Pitman, Boston, 1982.


El otro teorema que, junto con el teorema de Mercer, establece la base teórica del truco del núcleo, es el teorema del representador . Supongamos que tiene un espacio muestral y un núcleo semidefinido simétrico positivo . También dejó ser los RKHS asociados con . Finalmente, deje que sea ​​una muestra de entrenamiento. El teorema dice que entre todas las funciones , que admiten una representación infinita en términos de funciones propias deXK:X×XRHKKS={xi,yi}i=1nfHKKDebido al teorema de Mercer, el que minimiza el riesgo regularizado siempre tiene una representación finita en la base formada por el núcleo evaluado en los puntos de entrenamiento, es decirn

minfHKi=1nL(yi,f(xi))+λ||f||HK2=min{cj}1i=1nL(yi,jcjϕj(xi))+λjcj2γj=i=1nαiK(x,xi)

(El teorema es la última igualdad). Referencias: Wahba, G. 1990, Spline Models for Observational Data , SIAM, Philadelphia.


El teorema de aproximación universal ya ha sido citado por el usuario Tobias Windisch y es mucho menos relevante para el aprendizaje automático que para el análisis funcional, incluso si no lo parece a primera vista. El problema es que el teorema solo dice que dicha red existe, pero:

  • no proporciona ninguna correlación entre el tamaño de la capa oculta y alguna medida de complejidad de la función objetivo , como por ejemplo, Variación total. Si y la requerida para un error fijo creció exponencialmente con , entonces una sola capa neural oculta Las redes serían inútiles.Nf(x)f(x)=sin(ωx):[0,2π][1,1]Nϵω
  • no dice si la red se puede aprender . En otras palabras, suponga que dados y , sabemos que un tamaño NN se aproximará a con la tolerancia requerida en el hipercubo. Luego, mediante el uso de conjuntos de entrenamiento de tamaño y un procedimiento de aprendizaje como, por ejemplo, respaldo, ¿tenemos alguna garantía de que al aumentar podamos recuperar ?F(x)fϵNfMMF
  • finalmente, y lo peor de todo, no dice nada sobre el error de predicción de las redes neuronales. Lo que realmente estamos interesados es una estimación del error de predicción, al menos como media de todas las series de entrenamiento de tamaño . El teorema no ayuda a este respecto.M

Un punto de dolor menor con la versión de Hornik de este teorema es que no es válido para las funciones de activación de ReLU. Sin embargo, Bartlett ha demostrado desde entonces una versión extendida que cubre esta brecha.


Hasta ahora, supongo que todos los teoremas que consideraba eran conocidos por cualquiera. Así que ahora es el momento de lo divertido :-) Veamos algunos teoremas de Deep Learning :

Suposiciones

  • la red neuronal profunda (para fijo , es la función que asocia las entradas de la red neuronal con sus salidas) y la pérdida de regularización son sumas positivas funciones homogéneas del mismo gradoΦ(X,W)WΦW(X)Θ(W)
  • la función de pérdida es convexa y una vez diferenciable en , en un conjunto compactoL(Y,Φ(X,W)XS

Entonces:

  • cualquier mínimo local para modo que una subred de tenga cero pesos, es un mínimo global ( Teorema 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
  • por encima de un tamaño de red crítico, el descenso local siempre convergerá a un mínimo global desde cualquier inicialización ( Teorema 2 ).

Esto es muy interesante: los CNN hechos solo de capas convolucionales, ReLU, agrupación máxima, ReLU completamente conectada y capas lineales son funciones positivamente homogéneas , mientras que si incluimos funciones de activación sigmoidea, esto ya no es cierto, lo que puede explicar en parte el superior rendimiento en algunas aplicaciones de ReLU + max pooling con respecto a los sigmoides. Además, los teoremas solo se mantienen si también es positivamente homogéneo en del mismo grado que . Ahora, el hecho divertido es que la regularización o , aunque positivamente homogénea, no tiene el mismo grado de (el grado deΘWΦl1l2ΦΦ, en el caso simple de CNN mencionado anteriormente, aumenta con el número de capas). En cambio, los métodos de regularización más modernos, como la normalización por lotes y la ruta SGD, corresponden a una función de regularización positivamente homogénea del mismo grado que , y el abandono, aunque no se ajusta exactamente a este marco, tiene fuertes similitudes con él. Esto puede explicar por qué, para obtener una alta precisión con las regularización y no es suficiente, ¡pero necesitamos emplear todo tipo de trucos diabólicos, como la deserción y la normalización de lotes! Que yo sepa, esto es lo más parecido a una explicación de la eficacia de la normalización de lotes, que por lo demás es muy oscura, como lo señaló correctamente Al Rahimi en su charla.Φl1l2

Otra observación que algunas personas hacen, basada en el Teorema 1 , es que podría explicar por qué ReLU funciona bien, incluso con el problema de las neuronas muertas . Según esta intuición, el hecho de que, durante el entrenamiento, algunas neuronas ReLU "mueren" (pasan a activación cero y luego nunca se recuperan de eso, ya que para el gradiente de ReLU es cero) es "una característica, no un error ", porque si hemos alcanzado un mínimo y una subred completa ha muerto, es probable que alcancemos un mínimo global (según las hipótesis del Teorema 1x<0) Puede que me falte algo, pero creo que esta interpretación es descabellada. En primer lugar, durante el entrenamiento, las ReLU pueden "morir" mucho antes de que alcancemos un mínimo local. En segundo lugar, debe demostrarse que cuando las unidades ReLU "mueren", siempre lo hacen en una subred completa: el único caso en el que esto es trivialmente cierto es cuando solo tiene una capa oculta, en cuyo caso, por supuesto, cada neurona es Una subred. Pero, en general, sería muy cauteloso al ver que las "neuronas muertas" son algo bueno.

Referencias

B. Haeffele y R. Vidal, Optimización global en la formación de redes neuronales , en la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 2017.

B. Haeffele y R. Vidal. Optimización global en factorización de tensor, aprendizaje profundo y más allá , arXiv, abs / 1506.07540, 2015.


La clasificación de imágenes requiere representaciones de aprendizaje que son invariables (o al menos robustas, es decir, muy débilmente sensibles) a diversas transformaciones como ubicación, pose, punto de vista, iluminación, expresión, etc., que comúnmente están presentes en imágenes naturales, pero que no contienen información para la tarea de clasificación. Lo mismo para el reconocimiento de voz: cambios de tono, volumen, ritmo, acento. etc. no debe conducir a un cambio en la clasificación de la palabra. Las operaciones como convolución, agrupación máxima, agrupación promedio, etc., utilizadas en CNN tienen exactamente este objetivo, por lo que intuitivamente esperamos que funcionen para estas aplicaciones. ¿Pero tenemos teoremas para apoyar esta intuición? Hay un teorema de invariancia de traducción vertical, que, a pesar del nombre, no tiene nada que ver con la traducción en la dirección vertical, pero es básicamente un resultado que dice que las características aprendidas en las siguientes capas se vuelven cada vez más invariables, a medida que aumenta el número de capas. Esto se opone a un teorema de invariancia de traducción horizontal más antiguo que, sin embargo, es válido para las redes de dispersión, pero no para las CNN. El teorema es muy técnico, sin embargo:

  • suponga que (su imagen de entrada) es integrable al cuadradof
  • suponga que su filtro conmuta con el operador de traducción , que asigna la imagen de entrada a una copia traducida de sí mismo . Un núcleo de convolución aprendido (filtro) satisface esta hipótesis.TtfTtf
  • suponga que todos los filtros, no linealidades y agrupaciones en su red satisfacen una llamada condición de admisibilidad débil , que es básicamente una especie de regularidad débil y condiciones de límite. Estas condiciones son satisfechas por el núcleo de convolución aprendido (siempre y cuando se realice alguna operación de normalización en cada capa), ReLU, sigmoide, tanh, etc., no linealidades, y por agrupación promedio, pero no por agrupación máxima. Por lo tanto, cubre algunas (no todas) arquitecturas CNN del mundo real.
  • Supongamos finalmente que cada capa tiene un factor de agrupación , es decir, la agrupación se aplica en cada capa y descarta efectivamente la información. La condición también sería suficiente para una versión más débil del teorema.nSn>1Sn1

Indique con la salida de la capa de la CNN, cuando la entrada es . Entonces finalmente:Φn(f)nf

limn|||Φn(Tff)Φn(f)|||=0

(las barras triples no son un error), lo que básicamente significa que cada capa aprende características que se vuelven cada vez más invariables, y en el límite de una red infinitamente profunda tenemos una arquitectura perfectamente invariable. Dado que las CNN tienen un número finito de capas, no son perfectamente invariantes en la traducción, algo que los practicantes conocen bien.

Referencia: T. Wiatowski y H. Bolcskei, Una teoría matemática de redes neuronales convolucionales profundas para la extracción de características , arXiv: 1512.06293v3 .


Para concluir, numerosos límites para el error de generalización de una red neuronal profunda basada en su dimensión Vapnik-Chervonkensis o en la complejidad de Rademacher crecen con el número de parámetros (algunos incluso exponencialmente), lo que significa que no pueden explicar por qué los DNN funcionan tan bien en la práctica, incluso cuando el número de parámetros es considerablemente mayor que el número de muestras de entrenamiento. De hecho, la teoría VC no es muy útil en Deep Learning.

Por el contrario, algunos resultados del año pasado vinculan el error de generalización de un clasificador DNN con una cantidad que es independiente de la profundidad y el tamaño de la red neuronal, pero que depende solo de la estructura del conjunto de entrenamiento y el espacio de entrada. Bajo algunos supuestos bastante técnicos sobre el procedimiento de aprendizaje, y sobre el conjunto de entrenamiento y el espacio de entrada, pero con muy pocos supuestos sobre el DNN (en particular, los CNN están completamente cubiertos), entonces con probabilidad de al menos , tenemos1δ

GE2log2NyNγm+2log(1/δ)m

dónde:

  • GE es el error de generalización, definido como la diferencia entre la pérdida esperada (la pérdida promedio del clasificador aprendido en todos los puntos de prueba posibles) y la pérdida empírica (solo el error de conjunto de entrenamiento bueno)
  • Ny es el número de clases
  • m es el tamaño del conjunto de entrenamiento
  • Nγ es el número de cobertura de los datos, una cantidad relacionada con la estructura del espacio de entrada y con la separación mínima entre puntos de diferentes clases en el conjunto de entrenamiento. Referencia:

J. Sokolic, R. Giryes, G. Sapiro y M. Rodrigues. Error de generalización de clasificadores invariantes . En AISTATS, 2017


2
+1. Gran respuesta, la última parte es muy intrigante. En la primera parte, el teorema de Mercer se parece al SVD que presentaste justo arriba.
ameba dice Restablecer Mónica

1
@amoeba, tienes razón, pero 1) no todos los lectores son tan expertos en matemáticas como tú, que reconocerían inmediatamente la similitud entre SVD, la expansión de Karhunen-Loeve y el teorema de Mercer. También 2) el otro teorema del Análisis funcional que "potencia" el truco del núcleo, y que elegí no incluir, es más difícil de explicar que el teorema de Mercer, y ya rompí mi sábado :-) ¡Tal vez lo agregaré mañana!
DeltaIV

1
Gauss Markov parece estar fuera de lugar, nunca vio a nadie preocuparse por AZUL en la comunidad de ML.
Carlos Cinelli

2
Estoy de acuerdo en que, como regla general, la referencia original (arcaica) generalmente tiene una notación tediosa. Dicho esto, el artículo de Mercer es sorprendentemente moderno en ese aspecto y lo agregué exactamente por eso. :) (Dije originalmente, esta es una muy buena respuesta, esto es solo un comentario después del
voto a favor

2
Me gusta el teorema de Mercer aquí, no lo elimine. ¿Y por qué no tener ambos enlaces? Simplemente agregue algo como See [here] for a modern exposition, o viceversa, "para el artículo original".
ameba dice Reinstate Monica

11

Creo que el siguiente teorema al que te refieres se considera bastante fundamental en el aprendizaje estadístico.

Teorema (Vapnik y Chervonenkis, 1971) Sea una clase hipotética de funciones desde un dominio a y deje que la función de pérdida sea la pérdida . Entonces los siguientes son equivalentes:HX{0,1}01

  1. H tiene la propiedad de convergencia uniforme.
  2. H es PAC aprendible.
  3. H tiene una dimensión VC finita.

Probado en una versión cuantitativa aquí:

VN Vapnik y AY Chervonenkis: Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades. Teoría de la probabilidad y sus aplicaciones, 16 (2): 264–280, 1971.

La versión formulada anteriormente junto con una buena exposición de otros resultados de la teoría del aprendizaje está disponible aquí :

Shalev-Shwartz, Shai y Shai Ben-David. Comprensión del aprendizaje automático: de la teoría a los algoritmos. Cambridge University Press, 2014.



4

Mi favorita es la desigualdad de Kraft.

Teorema: para cualquier método de descripción para alfabeto finito , las longitudes de las palabras de código deben satisfacer la desigualdad .CA={1,,m}LC(1),,LC(2)xA2LC(x)1

Esta desigualdad relaciona la compresión con las densidades de probabilidad : dado un código, la longitud de un resultado representado por ese código es la probabilidad de registro negativa de un modelo identificado por el código.

Además, el teorema de no almuerzo gratis para el aprendizaje automático tiene un hermano menos conocido que el teorema de no hipercompresión, que establece que no todas las secuencias se pueden comprimir.


4

No lo llamaría un teorema principal , pero creo que el siguiente (a veces denominado el teorema de aproximación universal) es interesante (y al menos para mí sorprendente), ya que establece el poder aproximado de las redes neuronales de avance.

Teorema: Sea una función continua no constante y monotínicamente creciente. Para cualquier función continua y cualquier , existe un entero y un perceptrón multicapa con una capa oculta que tiene neuronas que tienen como activación funcionar para queσf:[0,1]mRϵ>0NFNσ

|F(x)f(x)|ϵ
para todas las .x[0,1]m

Por supuesto, como esta es una declaración sobre la existencia , su impacto para los profesionales es insignificante.

Se puede encontrar una prueba en Hornik, Capacidades de aproximación de las redes de alimentación de multicapas, Redes neuronales 4 (2), 1991,


55
Este teorema es un poco poco interesante ya que no es particular de las redes neuronales. Muchas otras clases de funciones comparten propiedades de aproximación similares (y a veces más fuertes). Ver por ejemplo el teorema de Stone-Weierstrass. Un resultado más interesante sería la consistencia de la regresión de la red neuronal en un marco general. Además, debe haber límites conocidos en el error medio de generalización en términos de la complejidad de la red y el tamaño de la muestra de entrenamiento.
Olivier

1
@ Olivier: estoy totalmente de acuerdo. Pero a pesar de que este teorema no está dedicado exclusivamente a las redes neuronales, todavía encuentro su declaración, su prueba rigurosa y sus implicaciones interesantes. Por ejemplo, dice que siempre que esté utilizando una función de activación que tenga las propiedades indicadas anteriormente, la capacidad aproximada de la red es la misma (en términos generales). O bien, dice que las redes neuronales pueden reducir el sobreajuste, ya que puedes aprender mucho con una capa oculta.
Tobias Windisch

1
No dice exactamente eso. Solo dice que existe una red neuronal con una capa oculta que puede representar , pero no le dice nada sobre cómo crece con , por ejemplo, o con alguna medida de complejidad de (por ejemplo, su variación total ) No le dice si puede los pesos de su red, dados los datos. Encontrará que, en muchos casos interesantes, es exponencialmente más grande para redes de una capa oculta que para redes multicapa (profundas). Es por eso que nadie usa una red de capa oculta para ImageNet o para Kaggle. fNmflearnN
DeltaIV

@DeltaIV: Hay un error tipográfico en la última oración de mi comentario anterior: la palabra "aprender" en realidad debería ser "aproximada" (de lo contrario, mi afirmación sobre "sobreajustar" no tendría sentido). ¡Gracias por la pista!
Tobias Windisch

Sí, lo interpreté en el sentido de "aproximación". Mi punto es que incluso si sabe que, en teoría, puede aproximar cualquier función (en un hipercubo limitado) con una capa oculta NN, en la práctica es inútil en muchos casos. Otro ejemplo: los procesos gaussianos con el núcleo exponencial cuadrado tienen la propiedad de aproximación universal, pero no han eliminado todos los demás métodos de regresión, también debido al hecho de que, para algunos problemas, el número de muestras necesarias para una aproximación precisa crece exponencialmente.
DeltaIV

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.