El revisor debería haberle dicho por qué Spearman no es apropiado. Aquí hay una versión de eso: deje que los datos sean ( Z i , I i ) donde Z es la variable medida e I es el indicador de género, digamos que es 0 (hombre), 1 (mujer). Entonces ρ de Spearman se calcula en base a los rangos de Z , I respectivamente. Como solo hay dos valores posibles para el indicador I , habrá muchos vínculos, por lo que esta fórmula no es apropiada. Si reemplaza el rango con el rango medio, obtendrá solo dos valores diferentes, uno para hombres y otro para mujeres. Entonces ρρ(Zi,Ii)ZIρZ,IIρse convertirá básicamente en una versión reescalada de los rangos medios entre los dos grupos. ¡Sería más simple (más interpretable) simplemente comparar los medios! Otro enfoque es el siguiente.
Sean las observaciones de la variable continua entre hombres, Y 1 , ... , Y m igual entre mujeres. Ahora, si la distribución de X y de Y es la misma, entonces P ( X > Y ) será 0.5 (supongamos que la distribución es puramente continua, por lo que no hay vínculos). En el caso general, defina
θ = P ( X > Y )
donde X es un sorteo aleatorio entre hombres, YX1,…,XnY1,…,YmXYP(X>Y)
θ=P(X>Y)
XYentre mujeres ¿Podemos estimar
partir de nuestra muestra? Forme todos los pares
( X i , Y j ) (suponga que no hay vínculos) y cuente cuántos tenemos "hombre es más grande" (
X i > Y j ) (
M ) y cuántos "mujer es más grande" (
X i < Y j ) (
W ). Entonces una estimación muestral de
θ es
Mθ(Xi,Yj)Xi>YjMXi<YjWθ
Esa es una medida razonable de correlación! (Si solo hay algunos lazos, simplemente ignórelos). Pero no estoy seguro de cómo se llama, si tiene un nombre. Este puede estar cerca:
https://en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gammaMM+W