n = 4
Dicho esto, una situación en la que más datos no ayudan, e incluso pueden dañar, es si sus datos de entrenamiento adicionales son ruidosos o no coinciden con lo que está tratando de predecir. Una vez realicé un experimento en el que conecté diferentes modelos de idiomas [*] en un sistema de reserva de restaurante activado por voz. Varié la cantidad de datos de entrenamiento y su relevancia: en un extremo, tenía una pequeña colección cuidadosamente seleccionada de tablas de reserva de personas, una combinación perfecta para mi aplicación. Por otro lado, tenía un modelo estimado a partir de una gran colección de literatura clásica, un modelo de lenguaje más preciso, pero mucho peor para la aplicación. Para mi sorpresa, el modelo pequeño pero relevante superó ampliamente al modelo grande pero menos relevante.
Una situación sorprendente, llamada
doble descenso , también ocurre cuando el tamaño del conjunto de entrenamiento está cerca del número de parámetros del modelo. En estos casos, el riesgo de prueba primero disminuye a medida que el tamaño del conjunto de entrenamiento aumenta, transitoriamente
aumenta cuando se añade un bit de datos más formación, y, finalmente, comienza la disminución de nuevo como el conjunto de entrenamiento continúa creciendo. Este fenómeno se informó 25 años en la literatura sobre redes neuronales (ver Opper, 1995), pero también ocurre en redes modernas (
Advani y Saxe, 2017 ). Curiosamente, esto sucede incluso para una regresión lineal, aunque sea un ajuste por SGD (
Nakkiran, 2019) Este fenómeno aún no se comprende totalmente y es en gran medida de interés teórico: ciertamente no lo usaría como una razón para no recopilar más datos (aunque podría jugar con el tamaño del conjunto de entrenamiento si n == p y el rendimiento fuera inesperadamente malo )
PAG( wnorte= 'rápido', wn + 1= 'marrón', wn + 2= 'zorro' )