Distancia de Kullback – Leibler vs Kolmogorov-Smirnov


37

Puedo ver que hay muchas diferencias formales entre las medidas de distancia de Kullback-Leibler vs Kolmogorov-Smirnov. Sin embargo, ambos se usan para medir la distancia entre distribuciones.

  • ¿Existe una situación típica en la que se debe usar uno en lugar del otro?
  • ¿Cuál es la razón para hacerlo?

Respuestas:


23

La divergencia KL se usa típicamente en configuraciones teóricas de información, o incluso configuraciones bayesianas, para medir el cambio de información entre distribuciones antes y después de aplicar alguna inferencia, por ejemplo. No es una distancia en el sentido típico (métrico), debido a la falta de simetría y la desigualdad de triángulos, por lo que se usa en lugares donde la direccionalidad es significativa.

La distancia KS se usa típicamente en el contexto de una prueba no paramétrica. De hecho, rara vez lo he visto como una "distancia entre distribuciones" genérica, donde la distancia , la distancia de Jensen-Shannon y otras distancias son más comunes.1


55
Otro uso de la divergencia KL que vale la pena mencionar es en las pruebas de hipótesis. Suponga que son iid de medidas con densidad p 0 o p 1 . Sea T n = n - 1n i = 1 log ( p 1 ( X i ) / p 0 ( X i ) ) . Por Neyman - Pearson, una prueba óptima rechaza cuando T n es grande. Ahora, bajo pX1,X2,p0p1Tn=n1i=1nlog(p1(Xi)/p0(Xi))Tn , T n- D ( p 0p0 en probabilidad y bajo p 1 , T nD ( p 1TnD(p0||p1)p1 . Desde D ( TnD(p1||p0) no es negativo, la implicación es que usar la regla T n > 0 para rechazar p 0 es asintóticamente perfecto. D(||)Tn>0p0
cardenal

En efecto. Ese es un excelente ejemplo. Y, de hecho, la mayoría de las versiones generales de los límites de cola de Chernoff-Hoeffding utilizan la divergencia KL.
Suresh Venkatasubramanian

2

Otra forma de decir lo mismo que la respuesta anterior en términos más laicos:

KL Divergence: en realidad, proporciona una medida de cuán grande es la diferencia entre dos distribuciones entre sí. Como se mencionó en la respuesta anterior, esta medida no es una métrica de distancia apropiada ya que no es simétrica. Es decir, la distancia entre la distribución A y B es un valor diferente de la distancia entre la distribución B y A.

Prueba de Kolmogorov-Smirnov: esta es una métrica de evaluación que analiza la mayor separación entre la distribución acumulativa de una distribución de prueba en relación con una distribución de referencia. Además, puede usar esta métrica como un puntaje z contra la distribución de Kolmogorov para realizar una prueba de hipótesis sobre si la distribución de prueba es la misma distribución que la referencia. Esta métrica se puede usar como una función de distancia, ya que es simétrica. Es decir, la mayor separación entre CDF de A frente a CDF de B es igual a la mayor separación entre CDF de B frente a CDF de A.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.