Simplemente agregue esta aclaración para que cualquiera que se desplace tanto pueda al menos hacerlo bien, ya que hay muchas respuestas incorrectas que se votaron.
La respuesta de Diansheng y la respuesta de JakeJ son correctas.
Una nueva respuesta publicada por Shital Shah es una respuesta aún mejor y más completa.
Sí, logit como una función matemática en estadística, pero la logitutilizada en el contexto de redes neuronales es diferente. Las estadísticas logitni siquiera tienen sentido aquí.
No pude encontrar una definición formal en ningún lado, pero logitbásicamente significa:
Las predicciones en bruto que salen de la última capa de la red neuronal.
1. Este es el tensor en el que aplica la argmaxfunción para obtener la clase predicha.
2. Este es el mismo tensor que introduces en la softmaxfunción para obtener las probabilidades para las clases predichas.
Además, de un tutorial en el sitio web oficial de tensorflow:
Capa Logits
La capa final en nuestra red neuronal es la capa logits, que devolverá los valores brutos para nuestras predicciones. Creamos una capa densa con 10 neuronas (una para cada clase objetivo 0–9), con activación lineal (el valor predeterminado):
logits = tf.layers.dense(inputs=dropout, units=10)
Si aún está confundido, la situación es la siguiente:
raw_predictions = neural_net(input_layer)
predicted_class_index_by_raw = argmax(raw_predictions)
probabilities = softmax(raw_predictions)
predicted_class_index_by_prob = argmax(probabilities)
donde, predicted_class_index_by_rawy predicted_class_index_by_probserá igual.
Otro nombre para raw_predictionsen el código anterior eslogit .
En cuanto al por qué logit ... no tengo idea. Lo siento.
[Editar: Vea esta respuesta para las motivaciones históricas detrás del término.]
Trivialidades
Aunque, si lo desea, puede aplicar estadísticas logita las probabilitiesque surgen de la softmaxfunción.
Si la probabilidad de una determinada clase es p,
entonces las probabilidades de registro de esa clase son L = logit(p).
Además, la probabilidad de esa clase se puede recuperar p = sigmoid(L)utilizando la sigmoidfunción
Sin embargo, no es muy útil para calcular las probabilidades de registro.