Aquí se puede encontrar un buen análisis teórico de esquemas de reemplazo con y sin reemplazo en el contexto de algoritmos iterativos basados en sorteos aleatorios (que son la cantidad de redes neuronales profundas (DNN) discriminatorias)
En resumen, resulta que el muestreo sin reemplazo conduce a una convergencia más rápida que el muestreo con reemplazo.
Daré un breve análisis aquí basado en el ejemplo de juguete que proporcionan: Digamos que queremos optimizar la siguiente función objetivo:
xopt=argminx12∑i=1N(x−yi)2
donde el objetivo . En este ejemplo, estamos tratando de resolver la x óptima , dadoyi∼N(μ,σ2)x etiquetas de y i obviamente.Nyi
Ok, si tuviéramos que resolver lo óptimo en lo anterior directamente, entonces tomaríamos la derivada de la función de pérdida aquí, la estableceríamos en 0 y resolveríamos por x . Entonces, para nuestro ejemplo anterior, la pérdida esxx
L=12∑i=1N(x−yi)2
y su primera derivada sería:
δLδx=∑i=1N(x−yi)
Ajuste a 0 y resolviendo parax, produce:δLδxx
xopt=1N∑i=1Nyi
En otras palabras, la solución óptima no es más que la media muestral de todas las muestras de y .Ny
Ahora, si no pudiéramos realizar el cálculo anterior de una vez, tendríamos que hacerlo de manera recursiva, a través de la ecuación de actualización de descenso de gradiente a continuación:
xi=xi−1−λi∇(f(xi−1))
y simplemente insertando nuestros términos aquí se obtiene:
xi=xi−1−λi(xi−1−yi)
Si corremos el anterior para todas las , entonces estamos realizando esta actualización sin reemplazo. La pregunta entonces es: ¿podemos obtener también el valor óptimo de x de esta manera? (Recuerde que el valor óptimo de x no es más que la media muestral de y ). La respuesta es sí, si dejas λ i = 1 / i . A ver, esto ampliamos:i∈1,2,...Nxxyλi=1/i
xi=xi−1−λi(xi−1−yi) xi=xi−1−1i(xi−1−yi) xi=ixi−1−(xi−1−yi)i xi=(i−1)xi−1+yii ixi=(i−1)xi−1+yi
¡Sin embargo, la última ecuación no es más que la fórmula para el promedio móvil! Por lo tanto, a medida que recorremos el conjunto desde , i = 2 , etc., hasta i = N , habríamos realizado nuestras actualizaciones sin reemplazo, y nuestra fórmula de actualización nos da la solución óptima de x , que es el ¡muestra promedio!i=1i=2i=Nx
NxN=(N−1)xN−1+yN==>xN=1N∑i=1Nyi=μ
Sin embargo, en contraste, si realmente dibujáramos con reemplazo, entonces, aunque nuestros sorteos serían realmente independientes, el valor optimizado sería diferente de la media (óptima) μ , y el error cuadrado estaría dado por:Xnorteμ
mi{ ( xnorte- μ )2}
lo que va a ser un valor positivo, y este simple ejemplo de juguete puede extenderse a dimensiones más altas. Esto tiene la consecuencia de que desearíamos realizar un muestreo sin reemplazo como una solución más óptima.
Espero que esto lo aclare un poco más!