Resumen
Comparto mis pensamientos en la sección Detalles . Creo que son útiles para identificar lo que realmente queremos lograr.
Creo que el principal problema aquí es que no has definido qué significa una similitud de rango. Por lo tanto, nadie sabe qué método de medir la diferencia entre los rangos es mejor.
Efectivamente, esto nos deja elegir ambiguamente un método basado en conjeturas.
Lo que realmente sugiero es definir primero un objetivo de optimización matemática. Solo entonces estaremos seguros de si realmente sabemos lo que queremos.
A menos que hagamos eso, realmente no sé lo que queremos. Es posible que casi sepamos lo que queremos, pero casi sabemos saber .≠
Mi texto en Detalles esencialmente es un paso para alcanzar una definición matemática de similitud de rangos . Una vez que aclaremos esto, podemos avanzar con confianza para elegir el mejor método para medir esa similitud.
Detalles
Basado en uno de sus comentarios:
- " El objetivo es ver si las clasificaciones de los dos grupos difieren ", Peter Flom.
Para responder esto mientras se interpreta estrictamente el objetivo:
- Los rangos son diferentes si, cualquier ítem , existe i tal que a i ≠ b i , donde a i es el rango del ítem i por grupo a y b i es el rango del mismo artículo pero por grupo b .i ∈ { 1 , 2 , … , 25 }younyo≠ byounyoyounsiyosi
- De lo contrario, los rangos no son diferentes.
Pero no creo que realmente quieras esa interpretación estricta . Por lo tanto, creo que lo que realmente quisiste decir es:
- ¿Cuán diferentes son los rangos de los grupos y b ?unsi
Una solución aquí es simplemente medir la distancia mínima de edición . Es decir, ¿cuál es el número mínimo de ediciones que deben realizarse en la lista clasificada del grupo manera que se vuelva idéntica a la del grupo b ?unsi
Una edición podría definirse como el intercambio de dos elementos, y el costo cuesta puntos dependiendo de cuántos saltos se necesiten. Así que si el artículo 1 necesidades para ser intercambiados con el punto 3 (a fin de lograr filas idénticas entre los de los grupos una y b ), entonces el costo de esta edición es 3 .norte13unsi3
Pero, ¿es adecuado este método? Para responder esto, veámoslo un poco más profundo:
No está normalizado. Si decimos que la distancia entre filas de los grupos es 3 , mientras que la distancia entre las filas de los grupos C , D es 123 , no significa necesariamente que una , b son más similares entre sí que c , d son entre sí (también podría significar que c , d estaban clasificando un conjunto mucho más grande de elementos).a , b3c , d123a , bc , dC, d
Se supone que el costo de cada edición es lineal con respecto al número de saltos. ¿Es esto cierto para nuestro dominio de aplicación? ¿Podría ser que una relación logística es más adecuada? O una exponencial ?
Se supone que todos los artículos son igualmente importantes. Por ejemplo, el desacuerdo en el elemento de clasificación (por ejemplo) se trata de manera idéntica al desacuerdo en el elemento de clasificación (por ejemplo) 5 . ¿Es esto cierto en tu dominio? Por ejemplo, si estamos clasificando libros, ¿no estamos de acuerdo con la clasificación de un libro famoso como TAOCP, igualmente importante que estar en desacuerdo con la clasificación de un libro terrible como TAOUP ?15 5
Una vez que abordemos los puntos anteriores y alcancemos una medida adecuada de similitud entre dos rangos, tendremos que hacer preguntas más interesantes, como:
- ¿Cuál es la probabilidad de observar tales diferencias, o las diferencias más extremas, si la diferencia entre los grupos de y b sólo se debió a la casualidad?unsi
the best ways to compare these rankings
- lo que tipo de diferencia de peso corporal de los 2 grupos le gustaría saber?