Aquí está el trato:
Técnicamente, usted escribió oraciones verdaderas (ambos modelos pueden aproximarse a cualquier función 'no demasiado loca' dados los parámetros suficientes), ¡pero esas oraciones no lo llevan a ninguna parte!
¿Porqué es eso? Bueno, eche un vistazo más de cerca a la teoría de la aproximación universal, o cualquier otra prueba formal de que una red neuronal puede calcular cualquier f (x) si hay suficientes neuronas.
Todos los tipos de pruebas que he visto usan solo una capa oculta.
Eche un vistazo rápido aquí http://neuralnetworksanddeeplearning.com/chap5.html para obtener algo de intuición. Hay trabajos que muestran que, en cierto sentido, la cantidad de neuronas necesarias crece exponencialmente si solo está usando una capa.
Entonces, mientras que en teoría tienes razón, en la práctica, no tienes una cantidad infinita de memoria, por lo que realmente no quieres entrenar una red de 2 ^ 1000 neuronas, ¿verdad? Incluso si tuviera una cantidad infinita de memoria, esa red se sobreajustará con seguridad.
En mi opinión, el punto más importante de ML es el punto práctico. Vamos a ampliar un poco sobre eso. El verdadero gran problema aquí no es solo cómo los polinomios aumentan / disminuyen muy rápidamente fuera del conjunto de entrenamiento. De ningún modo. Como ejemplo rápido, el píxel de cualquier imagen se encuentra dentro de un rango muy específico ([0,255] para cada color RGB), por lo que puede estar seguro de que cualquier muestra nueva estará dentro del rango de valores de su conjunto de entrenamiento. No. El gran problema es: esta comparación no es útil para empezar (!).
Le sugiero que experimente un poco con MNIST e intente ver los resultados reales que puede obtener utilizando una sola capa.
Las redes prácticas usan más de una capa oculta, a veces docenas (bueno, Resnet aún más ...) de capas. Por una razón. Esa razón no está probada y, en general, elegir una arquitectura para una red neuronal es un área de investigación candente. En otras palabras, aunque todavía necesitamos saber más, ¡ambos modelos que ha comparado (regresión lineal y NN con una sola capa oculta), para muchos conjuntos de datos, no son útiles en absoluto!
Por cierto, en caso de que ingrese a ML, hay otro teorema inútil que en realidad es una 'área de investigación' actual: PAC (probablemente aproximadamente correcta) / dimensión VC. Ampliaré eso como un bono:
Si la aproximación universal básicamente establece que dada una cantidad infinita de neuronas podemos aproximar cualquier función (¿muchas gracias?), Lo que dice PAC en términos prácticos es, dada (¡prácticamente!) Una cantidad infinita de ejemplos etiquetados que podemos acercarnos tanto como podamos Queremos la mejor hipótesis dentro de nuestro modelo. Fue absolutamente gracioso cuando calculé la cantidad real de ejemplos necesarios para que una red práctica estuviera dentro de una tasa de error práctica deseada con cierta probabilidad aceptable :) Era más que la cantidad de electrones en el universo. PS para impulsarlo también supone que las muestras son IID (¡eso nunca es cierto!).