Sé que este hilo es bastante antiguo y otros han hecho un gran trabajo para explicar conceptos como mínimos locales, sobreajuste, etc. Sin embargo, como OP estaba buscando una solución alternativa, intentaré aportar una y espero que inspire ideas más interesantes.
La idea es reemplazar cada peso w a w + t, donde t es un número aleatorio que sigue a la distribución gaussiana. La salida final de la red es entonces la salida promedio sobre todos los valores posibles de t. Esto se puede hacer analíticamente. Luego puede optimizar el problema ya sea con descenso de gradiente o LMA u otros métodos de optimización. Una vez que se realiza la optimización, tiene dos opciones. Una opción es reducir la sigma en la distribución gaussiana y hacer la optimización una y otra vez hasta que sigma llegue a 0, entonces tendrá un mínimo local mejor (pero potencialmente podría causar un sobreajuste). Otra opción es seguir usando el que tiene el número aleatorio en sus pesos, generalmente tiene una mejor propiedad de generalización.
El primer enfoque es un truco de optimización (lo llamo como túnel convolucional, ya que utiliza la convolución sobre los parámetros para cambiar la función objetivo), suaviza la superficie del paisaje de la función de costo y elimina algunos de los mínimos locales, por lo tanto facilitará la búsqueda del mínimo global (o mejor mínimo local).
El segundo enfoque está relacionado con la inyección de ruido (en pesas). Tenga en cuenta que esto se realiza analíticamente, lo que significa que el resultado final es una sola red, en lugar de múltiples redes.
Los siguientes son salidas de ejemplo para problemas de dos espirales. La arquitectura de red es la misma para los tres: solo hay una capa oculta de 30 nodos y la capa de salida es lineal. El algoritmo de optimización utilizado es LMA. La imagen de la izquierda es para la configuración de vainilla; el medio está usando el primer enfoque (es decir, reducir repetidamente sigma hacia 0); el tercero usa sigma = 2.
Puede ver que la solución de vainilla es la peor, el túnel convolucional hace un mejor trabajo y la inyección de ruido (con túnel convolucional) es la mejor (en términos de propiedad de generalización).
Tanto el túnel convolucional como la forma analítica de inyección de ruido son mis ideas originales. Quizás son la alternativa que alguien podría estar interesado. Los detalles se pueden encontrar en mi artículo Combinando Infinity Number Of Neural Networks Into One . Advertencia: no soy un escritor académico profesional y el artículo no es revisado por pares. Si tiene preguntas sobre los enfoques que mencioné, deje un comentario.