He estado jugando con la regresión logística con varios algoritmos de optimización por lotes (gradiente conjugado, newton-raphson y varios métodos de cuasinewton). Una cosa que he notado es que a veces, agregar más datos a un modelo puede hacer que la capacitación del modelo tome mucho menos tiempo. Cada iteración requiere mirar más puntos de datos, pero el número total de iteraciones requeridas puede disminuir significativamente al agregar más datos. Por supuesto, esto solo ocurre en ciertos conjuntos de datos, y en algún momento agregar más datos hará que la optimización disminuya la velocidad.
¿Es este un fenómeno bien estudiado? ¿Dónde puedo encontrar más información sobre por qué / cuándo puede ocurrir esto?