La solución que alcancé después de una hora de prueba generalmente converge en solo 100 épocas .
Sí, sé que no tiene el límite de decisión más uniforme que existe, pero converge bastante rápido.
Aprendí algunas cosas de este experimento en espiral:
- La capa de salida debe ser mayor o igual que la capa de entrada . Al menos eso es lo que noté en el caso de este problema espiral.
- Mantenga la tasa de aprendizaje inicial alta , como 0.1 en este caso, luego, cuando se acerque a un error de prueba bajo como 3-5% o menos, disminuya la tasa de aprendizaje en una muesca (0.03) o dos. Esto ayuda a converger más rápido y evita saltar alrededor de los mínimos globales.
- Puede ver los efectos de mantener alta la tasa de aprendizaje marcando el gráfico de error en la esquina superior derecha.
- Para lotes más pequeños como 1, 0.1 es una tasa de aprendizaje demasiado alta ya que el modelo no puede converger ya que salta alrededor de los mínimos globales.
- Por lo tanto, si desea mantener una alta tasa de aprendizaje (0.1), mantenga el tamaño del lote alto (10) también. Esto generalmente da una convergencia lenta pero más suave.
Casualmente, la solución que se me ocurrió es muy similar a la proporcionada por Salvador Dalí .
Agregue amablemente un comentario, si encuentra más intuiciones o razonamientos.