Hay muchas formas de medir cuán similares son las dos distribuciones de probabilidad. Entre los métodos que son populares (en diferentes círculos) están:
la distancia de Kolmogorov: la distancia superior entre las funciones de distribución;
la distancia de Kantorovich-Rubinstein: la diferencia máxima entre las expectativas de las dos distribuciones de funciones con la constante Lipschitz , que también resulta ser la distancia entre las funciones de distribución;
la distancia de Lipschitz acotada: como la distancia KR pero también se requiere que las funciones tengan un valor absoluto como máximo .
Estos tienen diferentes ventajas y desventajas. Solamente la convergencia en el sentido de 3. en realidad corresponde precisamente a la convergencia en la distribución; La convergencia en el sentido de 1. o 2. es ligeramente más fuerte en general. (En particular, si con probabilidad, luegoconverge aen distribución, pero no en la distancia de Kolmogorov. Sin embargo, si la distribución límite es continua, entonces esta patología no ocurre).
Desde la perspectiva de la probabilidad elemental o la teoría de la medida, 1. es muy natural porque compara las probabilidades de estar en algún conjunto. Una perspectiva probabilística más sofisticada, por otro lado, tiende a centrarse más en las expectativas que en las probabilidades. Además, desde la perspectiva del análisis funcional, las distancias como 2. o 3. basadas en la dualidad con algún espacio de funciones son muy atractivas, porque hay un gran conjunto de herramientas matemáticas para trabajar con tales cosas.
Sin embargo, mi impresión (¡corríjame si me equivoco!) Es que en las estadísticas, la distancia de Kolmogorov es la forma generalmente preferida de medir la similitud de las distribuciones. Puedo adivinar una razón: si una de las distribuciones es discreta con soporte finito, en particular, si es la distribución de algunos datos del mundo real, entonces la distancia de Kolmogorov a una distribución modelo es fácil de calcular. (La distancia KR sería un poco más difícil de calcular, y la distancia BL probablemente sería imposible en términos prácticos).
Entonces mi pregunta (finalmente) es, ¿hay otras razones, ya sean prácticas o teóricas, para favorecer la distancia de Kolmogorov (o alguna otra distancia) con fines estadísticos?