La distancia del motor de la tierra , también conocida como la métrica de Wasserstein, mide la distancia entre dos histogramas. Esencialmente, considera un histograma como una cantidad de montones de suciedad y luego evalúa cuánta suciedad hay que mover y qué tan lejos (!) Convertir este histograma en el otro. Mediría la distancia entre su distribución y una uniforme durante los días de la semana.
Por supuesto, esto explica la cercanía de los días: es más fácil mover la "suciedad" de lunes a martes que de lunes a jueves, por lo que (1 / 2,0,0,1 / 2,0,0,0) tendría un menor distancia de movimiento de tierra desde la distribución uniforme que un histograma que se concentra los lunes y martes.
Lo que esto no hace es considerar la "circularidad" de la semana, es decir, que el sábado y el domingo están tan juntos como el domingo y el lunes. Para eso, necesitaría buscar una distancia de movimiento de tierra definida en distribuciones de masa de probabilidad circular . Esto debería ser posible utilizando un enfoque de optimización adecuado.
EDITAR: en R, el emd
paquete calcula las distancias del movimiento de tierra entre los histogramas.
Puede abordar el problema de la "circularidad" de una manera bastante simple (aunque ad-hoc).
- Calcule una distancia de movimiento de tierra entre su distribución y una distribución uniforme de lunes a domingo.re1
- Calcule una distancia contra una distribución uniforme de martes a lunes.re2
- Calcule una distancia contra una distribución uniforme de miércoles a martes.re3
- ...
- Finalmente, como la distancia final, use la media de .d1,…,d7
Esto se encarga de la circularidad a expensas de un par de cálculos adicionales.
2da EDICIÓN: esta no es la distancia circular del movimiento de tierra como tal. Para eso, deberías mirar a través de la literatura que aparecerá una búsqueda . Si la mejor manera de mover la suciedad entre días implica moverla dos días de sábado a lunes, esto aparecerá en cinco de los siete , pero no en los dos restantes (donde será necesario mover la suciedad cinco días).di
Sin embargo, todavía consideraría que esta es una forma potencialmente útil de al menos considerar la circularidad de alguna manera, ciertamente mejor que usar un solo histograma y definir la semana como de domingo a sábado o de alguna otra manera arbitraria. Además, si bien algunos de los enlaces anteriores muestran implementaciones para la distancia circular del movimiento de tierra, no conozco uno para R, que es probablemente el lenguaje más utilizado aquí.