La fórmula de dimensión Vapnik – Chervonenkis (VC) para redes neuronales varía de a , con en el peor de los casos, donde es el número de aristas y es el número de nodos El número de muestras de entrenamiento necesarias para tener una fuerte garantía de generalización es lineal con la dimensión VC.
Esto significa que para una red con miles de millones de bordes, como en el caso de modelos exitosos de aprendizaje profundo, el conjunto de datos de entrenamiento necesita miles de millones de muestras de entrenamiento en el mejor de los casos, hasta miles de millones en el peor de los casos. Los conjuntos de entrenamiento más grandes actualmente tienen alrededor de cien mil millones de muestras. Dado que no hay suficientes datos de capacitación, es poco probable que los modelos de aprendizaje profundo se estén generalizando. En cambio, están sobreajustando los datos de entrenamiento. Esto significa que los modelos no funcionarán bien en datos que son diferentes a los datos de entrenamiento, lo cual es una propiedad indeseable para el aprendizaje automático.
Dada la incapacidad del aprendizaje profundo para generalizar, según el análisis dimensional de VC, ¿por qué los resultados del aprendizaje profundo son tan publicitados? El simple hecho de tener una alta precisión en algún conjunto de datos no significa mucho en sí mismo. ¿Hay algo especial en las arquitecturas de aprendizaje profundo que reduzca significativamente la dimensión VC?
Si no cree que el análisis de la dimensión VC sea relevante, proporcione evidencia / explicación de que el aprendizaje profundo está generalizando y no es demasiado adecuado. Es decir, ¿tiene buena memoria Y precisión, o solo buena memoria? El 100% de recuperación es trivial de lograr, al igual que el 100% de precisión. Acercarse a ambos al 100% es muy difícil.
Como ejemplo contrario, aquí hay evidencia de que el aprendizaje profundo es demasiado adecuado. Un modelo sobreajustado es fácil de engañar ya que ha incorporado ruido determinista / estocástico. Vea la siguiente imagen para ver un ejemplo de sobreajuste.
Además, vea las respuestas de menor rango a esta pregunta para comprender los problemas con un modelo sobreajustado a pesar de la buena precisión en los datos de la prueba.
Algunos han respondido que la regularización resuelve el problema de una gran dimensión de VC. Vea esta pregunta para mayor discusión.