La capacidad es un término informal. Está muy cerca (si no es sinónimo) de la complejidad del modelo. Es una forma de hablar sobre lo complicado que puede ser un patrón o relación que un modelo pueda expresar. Podría esperar que un modelo con mayor capacidad pueda modelar más relaciones entre más variables que un modelo con menor capacidad.
Al hacer una analogía a partir de la definición coloquial de capacidad, puede pensar en ella como la capacidad de un modelo para aprender de más y más datos, hasta que se haya "llenado" completamente con información.
Hay varias formas de formalizar la capacidad y calcular un valor numérico para ella, pero lo más importante son solo algunas posibles "operacionalizaciones" de la capacidad (de la misma manera que, si a alguien se le ocurriera una fórmula para calcular la belleza, se daría cuenta de que la fórmula es solo una interpretación falible de la belleza).
La dimensión VC es una formulación matemáticamente rigurosa de la capacidad. Sin embargo, puede haber una gran brecha entre la dimensión VC de un modelo y la capacidad real del modelo para ajustar los datos. A pesar de que conocer el VC dim da un límite en el error de generalización del modelo, esto suele ser demasiado suelto para ser útil con las redes neuronales.
Otra línea de investigación que se ve aquí es usar la norma espectral de las matrices de peso en una red neuronal como medida de capacidad. Una forma de entender esto es que la norma espectral limita la constante de Lipschitz de la red.
La forma más común de estimar la capacidad de un modelo es contar el número de parámetros. Cuantos más parámetros, mayor es la capacidad en general. Por supuesto, a menudo una red más pequeña aprende a modelar datos más complejos mejor que una red más grande, por lo que esta medida también está lejos de ser perfecta.
Otra forma de medir la capacidad podría ser entrenar su modelo con etiquetas aleatorias ( Neyshabur et al. ): Si su red puede recordar correctamente un conjunto de entradas junto con etiquetas aleatorias, esencialmente muestra que el modelo tiene la capacidad de recordar todas esas puntos de datos individualmente. Cuantos más pares de entrada / salida se puedan "aprender", mayor será la capacidad.
ϵ