Cuando se utilizan funciones de activación logística, es cierto que la función que relaciona las entradas de cada unidad con su salida es la misma que para la regresión logística. Pero, esto no es realmente lo mismo que cada unidad que realiza una regresión logística. La diferencia es que, en la regresión logística, los pesos y el sesgo se eligen de manera que el resultado coincida mejor con los valores objetivo dados (utilizando la pérdida de log / entropía cruzada). En contraste, las unidades ocultas en una red neuronal envían sus salidas a las unidades aguas abajo. No hay salida de destino para las unidades ocultas individuales. Por el contrario, los pesos y sesgos se eligen para minimizar alguna función objetivo que depende de la salida final de la red.
En lugar de realizar una regresión logística, podría tener más sentido pensar que cada unidad oculta calcula una coordenada en algún espacio de características. Desde esta perspectiva, el propósito de una capa oculta es transformar su entrada: el vector de entrada se asigna a un vector de activaciones de capa oculta. Puede pensar en esto como mapear la entrada en un espacio de características con una dimensión correspondiente a cada unidad oculta.
La capa de salida a menudo se puede considerar como un algoritmo de aprendizaje estándar que opera en este espacio de características. Por ejemplo, en una tarea de clasificación, usar una unidad de salida logística con pérdida de entropía cruzada es equivalente a realizar una regresión logística en el espacio de características (o una regresión logística multinomial si se usan salidas softmax). En una tarea de regresión, usar una salida lineal con error al cuadrado es equivalente a realizar una regresión lineal de mínimos cuadrados en el espacio de características.
Entrenar la red equivale a aprender el mapeo del espacio de características y la función de clasificación / regresión (en el espacio de características) que, en conjunto, brindan el mejor rendimiento. Asumir unidades ocultas no lineales, aumentar el ancho de la capa oculta o apilar varias capas ocultas permite mapeos de espacios de características más complejos, lo que permite que se ajusten funciones más complejas.