Esta pregunta me ha intrigado durante mucho tiempo. Entiendo el uso de 'log' para maximizar la probabilidad, por lo que no estoy preguntando sobre 'log'.
Mi pregunta es, dado que maximizar la probabilidad de registro es equivalente a minimizar la "probabilidad de registro negativa" (NLL), ¿por qué inventamos esta NLL? ¿Por qué no usamos la "probabilidad positiva" todo el tiempo? ¿En qué circunstancias se favorece la NLL?
Encontré una pequeña explicación aquí. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , y parece explicar la equivalencia obvia en profundidad, pero no resuelve mi confusión.
Cualquier explicación será apreciada.