He leído que la mayoría de los problemas se pueden resolver con 1-2 capas ocultas. ¿Cómo sabes que necesitas más de 2? ¿Para qué tipo de problemas los necesitarías (dame un ejemplo)?
Dos funciones de activación comunes utilizadas en el aprendizaje profundo son la función tangente hiperbólica y la función de activación sigmoidea. Entiendo que la tangente hiperbólica es solo un cambio de escala y traducción de la función sigmoidea: tanh( z) = 2 σ( z) - 1tanh(z)=2σ(z)-1\tanh(z) = 2\sigma(z) - 1 …