Supongo que lo más importante es que las muestras en sus datos están bien distribuidas, porque no importa cuántos datos tenga, más datos siempre serían mejores. Después de todo, si intenta aprender a distinguir entre las imágenes de gatos y perros, no puede esperar que su modelo funcione bien si solo lo alimenta con imágenes de gatos.
Como se sugiere en la respuesta de Kevin L , tiene sentido considerar la diferencia entre el error de entrenamiento y el error de prueba. Si sus datos de prueba son independientes de sus datos de entrenamiento, esto le indica qué tan bien generaliza su modelo a los datos que no están disponibles. Algo que me gustaría agregar a eso es el hecho de que una gran diferencia entre el error de entrenamiento y prueba solo te dice que tu modelo no se generaliza bien, es decir, estás sobreajustado en los datos de entrenamiento. Probablemente, más datos ayudarán, porque ahora la red también necesita modelar los puntos de datos adicionales, por lo tanto, ya no puede sobreajustar tanto. Sin embargo, podría valer más la pena cambiar su modelo para que se generalice mejor. Este capítulo de un excelente libro. explica qué tipos de regularización existen y cómo se pueden aplicar en las redes para obtener una mejor generalización.
Si estaba buscando una medida más cuantitativa, recientemente encontré esta pregunta en quora. Se trata de un codificador automático, pero supongo que también debería ser aplicable a su ejemplo. No tengo idea de si esto es correcto (hágamelo saber), pero razonaría que, por ejemplo, para MNIST, se podría argumentar que intenta reducir las imágenes con un máximo de 28 * 28 * 8 * 10 000 = 62 720 000 bits de entropía a diez clases en una codificación de uno en caliente con 10 * 10 * 10 000 = 1 000 000 bits de entropía. Como solo estamos interesados en los 1 000 000 bits de entropía en la salida, podemos decir que con 1 000 000 parámetros, cada parámetro representa un solo bit, que es 1e-4 bits por muestra. Esto significa que necesitaría más datos. O tiene demasiados parámetros, porque, por ejemplo, con 100 parámetros, tiene 10 000 bits por parámetro y, por lo tanto, 1 bit por muestra. Sin embargo,