Básicamente, mi pregunta es que en los perceptrones multicapa, los perceptrones se usan con una función de activación sigmoidea. Para que en la regla de actualización se calcule como
¿En qué se diferencia este Perceptrón "sigmoide" de una regresión logística entonces?
Diría que un perceptrón sigmoide de una capa es equivalente a una regresión logística en el sentido de que ambos usan en la regla de actualización. Además, ambos devuelven en la predicción. Sin embargo, en perceptrones multicapa, la función de activación sigmoidea se usa para devolver una probabilidad, no una señal de encendido / apagado en contraste con la regresión logística y un perceptrón de una sola capa.
Creo que el uso del término "Perceptrón" puede ser un poco ambiguo, así que permítanme proporcionar algunos antecedentes basados en mi comprensión actual sobre los perceptrones de una sola capa:
Regla clásica de perceptrón
En primer lugar, el clásico perceptrón de F. Rosenblatt donde tenemos una función de paso:
para actualizar los pesos
De manera que Y se calcula como
Descenso de gradiente
Usando el descenso de gradiente, optimizamos (minimizamos) la función de costo
donde tenemos números "reales", así que veo esto básicamente análogo a la regresión lineal con la diferencia de que nuestra salida de clasificación está limitada.
Aquí, damos un paso en la dirección negativa del gradiente cuando actualizamos los pesos
Pero aquí, tenemos lugar de y =signo(wTxi)
Además, calculamos la suma de los errores al cuadrado para un pase completo sobre todo el conjunto de datos de entrenamiento (en el modo de aprendizaje por lotes) en contraste con la regla clásica de perceptrón que actualiza los pesos a medida que llegan nuevas muestras de entrenamiento (análogo al descenso de gradiente estocástico - en línea aprendizaje).
Función de activación sigmoidea
Ahora, aquí está mi pregunta:
En los perceptrones multicapa, los perceptrones se usan con una función de activación sigmoidea. De modo que en la regla de actualización se calcula como
¿En qué se diferencia este Perceptrón "sigmoide" de una regresión logística entonces?