Es un hecho bien conocido que una red de 1 capa no puede predecir la función xor, ya que no es separable linealmente. Intenté crear una red de 2 capas, utilizando la función sigmoide logística y el backprop, para predecir xor. Mi red tiene 2 neuronas (y un sesgo) en la capa de entrada, 2 neuronas y 1 sesgo en la capa oculta, y 1 neurona de salida. Para mi sorpresa, esto no convergerá. si agrego una nueva capa, entonces tengo una red de 3 capas con input (2 + 1), hidden1 (2 + 1), hidden2 (2 + 1) y output, funciona. Además, si mantengo una red de 2 capas, pero aumento el tamaño de la capa oculta a 4 neuronas + 1 sesgo, también converge. ¿Hay alguna razón por la cual una red de 2 capas con 3 o menos neuronas ocultas no podrá modelar la función xor?