Soy nuevo en la red neuronal y estoy tratando de comprender matemáticamente qué hace que las redes neuronales sean tan buenas en los problemas de clasificación.
Al tomar el ejemplo de una red neuronal pequeña (por ejemplo, una con 2 entradas, 2 nodos en una capa oculta y 2 nodos para la salida), todo lo que tiene es una función compleja en la salida que es principalmente sigmoidea sobre una combinación lineal del sigmoide.
Entonces, ¿cómo los hace buenos para la predicción? ¿La función final conduce a algún tipo de ajuste de curva?