¿Existe alguna literatura que examine la elección del tamaño del minibatch al realizar el descenso de gradiente estocástico? En mi experiencia, parece ser una opción empírica, que generalmente se encuentra a través de la validación cruzada o el uso de diferentes reglas generales.
¿Es una buena idea aumentar lentamente el tamaño del minibatch a medida que disminuye el error de validación? ¿Qué efectos tendría esto en el error de generalización? ¿Estoy mejor usando un minibatch extremadamente pequeño y actualizando mi modelo cientos de miles de veces? ¿Estaría mejor con un número equilibrado en algún lugar entre extremadamente pequeño y por lotes?
¿Debo escalar el tamaño de mi minibatch con el tamaño del conjunto de datos o el número esperado de características dentro del conjunto de datos?
Obviamente tengo muchas preguntas sobre la implementación de esquemas de aprendizaje de minibatch. Desafortunadamente, la mayoría de los trabajos que leo no especifican realmente cómo eligieron este hiperparámetro. He tenido cierto éxito de autores como Yann LeCun, especialmente de la colección de artículos Tricks of the Trade. Sin embargo, todavía no he visto estas preguntas completamente abordadas. ¿Alguien tiene alguna recomendación para los documentos o consejos sobre qué criterios puedo usar para determinar buenos tamaños de minibatch cuando intento aprender las características?