Simplemente agregue esta aclaración para que cualquiera que se desplace tanto pueda al menos hacerlo bien, ya que hay muchas respuestas incorrectas que se votaron.
La respuesta de Diansheng y la respuesta de JakeJ son correctas.
Una nueva respuesta publicada por Shital Shah es una respuesta aún mejor y más completa.
Sí, logit
como una función matemática en estadística, pero la logit
utilizada en el contexto de redes neuronales es diferente. Las estadísticas logit
ni siquiera tienen sentido aquí.
No pude encontrar una definición formal en ningún lado, pero logit
básicamente significa:
Las predicciones en bruto que salen de la última capa de la red neuronal.
1. Este es el tensor en el que aplica la argmax
función para obtener la clase predicha.
2. Este es el mismo tensor que introduces en la softmax
función para obtener las probabilidades para las clases predichas.
Además, de un tutorial en el sitio web oficial de tensorflow:
Capa Logits
La capa final en nuestra red neuronal es la capa logits, que devolverá los valores brutos para nuestras predicciones. Creamos una capa densa con 10 neuronas (una para cada clase objetivo 0–9), con activación lineal (el valor predeterminado):
logits = tf.layers.dense(inputs=dropout, units=10)
Si aún está confundido, la situación es la siguiente:
raw_predictions = neural_net(input_layer)
predicted_class_index_by_raw = argmax(raw_predictions)
probabilities = softmax(raw_predictions)
predicted_class_index_by_prob = argmax(probabilities)
donde, predicted_class_index_by_raw
y predicted_class_index_by_prob
será igual.
Otro nombre para raw_predictions
en el código anterior eslogit
.
En cuanto al por qué logit
... no tengo idea. Lo siento.
[Editar: Vea esta respuesta para las motivaciones históricas detrás del término.]
Trivialidades
Aunque, si lo desea, puede aplicar estadísticas logit
a las probabilities
que surgen de la softmax
función.
Si la probabilidad de una determinada clase es p
,
entonces las probabilidades de registro de esa clase son L = logit(p)
.
Además, la probabilidad de esa clase se puede recuperar p = sigmoid(L)
utilizando la sigmoid
función
Sin embargo, no es muy útil para calcular las probabilidades de registro.