Tengo curiosidad por saber qué tan importante es el nodo de sesgo para la efectividad de las redes neuronales modernas. Puedo entender fácilmente que puede ser importante en una red poco profunda con solo unas pocas variables de entrada. Sin embargo, las redes neuronales modernas, como en el aprendizaje profundo, a menudo tienen una gran cantidad de variables de entrada para decidir si se activa una determinada neurona. ¿Simplemente eliminarlos de, por ejemplo, LeNet5 o ImageNet tendría algún impacto real?