Al optimizar un modelo de regresión logística, a veces más datos hacen que las cosas funcionen * más rápido *. ¿Alguna idea de por qué?

He estado jugando con la regresión logística con varios algoritmos de optimización por lotes (gradiente conjugado, newton-raphson y varios métodos de cuasinewton). Una cosa que he notado es que a veces, agregar más datos a un modelo puede hacer que la capacitación del modelo tome mucho menos tiempo. Cada iteración requiere mirar más puntos de datos, pero el número total de iteraciones requeridas puede disminuir significativamente al agregar más datos. Por supuesto, esto solo ocurre en ciertos conjuntos de datos, y en algún momento agregar más datos hará que la optimización disminuya la velocidad.

¿Es este un fenómeno bien estudiado? ¿Dónde puedo encontrar más información sobre por qué / cuándo puede ocurrir esto?

logistic references optimization

— Mike Izbicki
fuente

Esta es una observación interesante. Que el número de iteraciones puede disminuir con más datos es intuitivo: excepto con una separación completa, tener más datos implica una mayor precisión incluso en estimaciones iniciales aproximadas de la solución. Con menos datos, puede ser necesaria una búsqueda inicial más amplia, con gradientes pequeños. El análisis de la matriz de información en una vecindad de los valores de parámetros verdaderos haría esta intuición cuantitativa.

— whuber

Además de las cosas que @whuber menciona, agregar datos puede hacer que la superficie de probabilidad sea "más agradable", lo que significa que los algoritmos típicos deberían converger mucho más rápidamente. En pequeñas muestras, la convergencia para GLM a veces puede ser lenta porque la superficie no es una cosa agradable, casi cuadrática en los parámetros. A medida que los tamaños de muestra aumentan, especialmente si tiene una función de enlace canónico, por lo que la probabilidad es solo una función de algunas estadísticas suficientes y simples, puede ser más rápido no solo en iteraciones, sino posiblemente incluso a tiempo.

— Glen_b -Reinstate Monica el

Entiendo la intuición que ambos mencionan, pero tengo curiosidad por saber si esto se puede cuantificar un poco más de alguna manera. Por ejemplo, tal vez algunos resultados experimentales que muestren cuánta mejora de velocidad se puede obtener con más datos.

— Mike Izbicki

Muchas cosas extrañas pueden afectar la velocidad de procesamiento. Vea la pregunta más votada sobre Stack Overflow, por ejemplo.

— Nick Stauner

¿Puedes proporcionar un caso que muestre esto? Si pudieras hacerlo "típico" para tu experiencia y demostrar que un subconjunto de datos "saludables" tiene una convergencia lenta, pero el conjunto de datos en sí tiene una convergencia más rápida, eso podría ayudar con una mejor respuesta. Creo que acabo de parafrasear a Mike Izbicki.

— EngrStudent

Con menos cantidades de datos, la correlación espuria entre las entradas de regresión es a menudo alta, ya que solo tiene tantos datos. Cuando las variables de regresión están correlacionadas, la superficie de probabilidad es relativamente plana, y se hace más difícil para un optimizador, especialmente uno que no usa el Hessian completo (por ejemplo, Newton Raphson), para encontrar el mínimo.

Aquí hay algunos gráficos agradables y más explicaciones sobre cómo funcionan varios algoritmos con los datos con diferentes cantidades de correlación, aquí: http://fa.bianp.net/blog/2013/numerical-optimizers-for-logistic-regression/

— Joe
fuente