¿Por qué minimizamos la probabilidad negativa si es equivalente a la maximización de la probabilidad?

47

Esta pregunta me ha intrigado durante mucho tiempo. Entiendo el uso de 'log' para maximizar la probabilidad, por lo que no estoy preguntando sobre 'log'.

Mi pregunta es, dado que maximizar la probabilidad de registro es equivalente a minimizar la "probabilidad de registro negativa" (NLL), ¿por qué inventamos esta NLL? ¿Por qué no usamos la "probabilidad positiva" todo el tiempo? ¿En qué circunstancias se favorece la NLL?

Encontré una pequeña explicación aquí. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , y parece explicar la equivalencia obvia en profundidad, pero no resuelve mi confusión.

Cualquier explicación será apreciada.

maximum-likelihood likelihood

— Tony
fuente

3

La probabilidad de registro máxima no es una función de pérdida, pero es negativa como se explica en el artículo de la última sección. Es una cuestión de consistencia. Suponga que tiene un sistema de aprendizaje inteligente que prueba diferentes funciones de pérdida para un problema determinado. El conjunto de funciones de pérdida contendrá pérdida al cuadrado, pérdida absoluta, etc. Para tener una lista consistente, agregará la probabilidad de registro negativa a la lista de funciones de pérdida.

— Cagdas Ozgenc

41

Esta es una respuesta alternativa : los optimizadores en paquetes estadísticos generalmente funcionan minimizando el resultado de una función. Si su función da el valor de probabilidad primero, es más conveniente usar el logaritmo para disminuir el valor devuelto por la función de probabilidad. Luego, dado que la función de probabilidad logarítmica y de probabilidad tiene la misma tendencia creciente o decreciente, puede minimizar la probabilidad logarítmica negativa para realmente realizar la estimación de probabilidad máxima de la función que está probando. Ver por ejemplo la nlminbfunción en R aquí

— Nicola Dinapoli
fuente

10

Diría que esto incluso va más allá de los optimizadores y se basa en las convenciones de la teoría de la optimización. Parece que la minimización a menudo se considera la optimización predeterminada. Por ejemplo, considere el nombre "optimización convexa", que acompaña a la minimización pero podría haberse llamado fácilmente "optimización cóncava".

— Bitwise

47

Los optimizadores suelen minimizar una función, por lo que utilizamos la probabilidad de registro negativa como minimización que es equivalente a maximizar la probabilidad de registro o la probabilidad en sí misma.

Solo para completar, mencionaría que el logaritmo es una función monotónica, por lo que optimizar una función es lo mismo que optimizar el logaritmo de la misma. Hacer la transformación logarítmica de la función de probabilidad hace que sea más fácil de manejar (la multiplicación se convierte en sumas) y esto también es numéricamente más estable. Esto se debe a que la magnitud de las probabilidades puede ser muy pequeña. Hacer una transformación logarítmica convierte estos pequeños números en valores negativos más grandes que una máquina de precisión finita puede manejar mejor.

— Luca
fuente

44

Como ejemplo, con frecuencia encuentro probabilidades de registro de orden -40,000 en mi trabajo. En este régimen, es numéricamente imposible trabajar con la probabilidad misma.

— Will Vousden

3

Aquí minimizar significa disminuir la distancia de dos distribuciones a su nivel más bajo: la distribución de Bernoulli objetivo y la distribución de resultados generada. Medimos la distancia de dos distribuciones usando la divergencia de Kullback-Leibler (también llamada entropía relativa), y debido a la teoría de los números grandes, minimizar la divergencia de KL equivale a minimizar la entropía cruzada (ya sea entropía cruzada multiclase, ver aquí o clasificación binaria, ver aquí y aquí )

Así

maximizar la probabilidad de registro es equivalente a minimizar la "probabilidad de registro negativa"

se puede traducir a

Maximizar la probabilidad logarítmica es equivalente a minimizar la distancia entre dos distribuciones, por lo tanto, es equivalente a minimizar la divergencia KL, y luego la entropía cruzada.

Creo que se ha vuelto bastante intuitivo.

— Lerner Zhang
fuente

1

La respuesta es más simple de lo que piensas. Es la convención que llamamos a la función objetivo de optimización una "función de costo" o "función de pérdida" y, por lo tanto, queremos minimizarlos, en lugar de maximizarlos, y por lo tanto, se forma la probabilidad de registro negativa, en lugar de la probabilidad positiva en su palabra. Sin embargo, técnicamente ambos son correctos. Por cierto, si queremos maximizar algo, generalmente lo llamamos "función de utilidad" y, por lo tanto, el objetivo es maximizarlo.

— Yang
fuente