¿Está "bien" trazar una línea de regresión para los datos clasificados (correlación de Spearman)?


12

Tengo datos para los que calculé la correlación de Spearman y quiero visualizarlos para una publicación. La variable dependiente se clasifica, la variable independiente no. Lo que quiero visualizar es más la tendencia general que la pendiente real, por lo que clasifiqué la independiente y apliqué la correlación / regresión de Spearman. Pero justo cuando tracé mis datos y estaba a punto de insertarlos en mi manuscrito, me topé con esta declaración (en este sitio web ):

Casi nunca usará una línea de regresión para la descripción o la predicción cuando realice la correlación de rango de Spearman, así que no calcule el equivalente de una línea de regresión .

y después

Puede graficar los datos de correlación de rango de Spearman de la misma manera que lo haría para una regresión lineal o correlación. Sin embargo, no ponga una línea de regresión en el gráfico ; sería engañoso poner una línea de regresión lineal en un gráfico cuando la haya analizado con correlación de rango.

La cuestión es que las líneas de regresión no son tan diferentes de cuando no clasifico el independiente y calculo la correlación de Pearson. La tendencia es la misma, pero debido a las tarifas exorbitantes para los gráficos en color en las revistas, utilicé una representación monocromática y los puntos de datos reales se superponen tanto que no es reconocible.

Podría solucionar esto, por supuesto, haciendo dos trazados diferentes: uno para los puntos de datos (clasificados) y otro para la línea de regresión (sin clasificar), pero si resulta que la fuente que cité es incorrecta o el problema No es tan problemático en mi caso, me facilitaría la vida. (También vi esta pregunta , pero no me ayudó).

Editar para obtener información adicional:

La variable independiente en el eje x representa el número de características y la variable dependiente en el eje y representa el rango si los algoritmos de clasificación se comparan en su rendimiento. Ahora tengo algunos algoritmos que son comparables en promedio, pero lo que quiero decir con mi gráfico es algo así como: "Mientras el clasificador A mejora cuanto más características están presentes, el clasificador B es mejor cuando hay menos características".

Editar 2 para incluir mis tramas:

Rangos de algoritmos trazados versus el número de características ingrese la descripción de la imagen aquí

Rangos de algoritmos trazados versus el número clasificado de características ingrese la descripción de la imagen aquí

Entonces, para repetir la pregunta del título:

¿Está bien trazar una línea de regresión para los datos clasificados de una correlación / regresión de Spearman?


¿Cuántas categorías hay en el rango? ¿Probaste el supuesto de proporcionalidad? Hay muchos investigadores que están perfectamente bien con el tratamiento de datos ordinales (por ejemplo, clasificación) como continuos. A veces, si hay muchas categorías, tiene sentido.
robin.datadrivers

1
Hay siete rangos, se usan para una prueba de Friedman
Sentry

Respuestas:


9

Se puede usar una correlación de rango para recoger la asociación monotónica entre las variables como se observa; como tal, normalmente no trazarías una línea para eso.

Hay situaciones en las que tiene mucho sentido usar correlaciones de rango para ajustar realmente las líneas a numeric-y vs numeric-x, ya sea Kendall o Spearman (o algún otro). Vea la discusión (y en particular, la última trama) aquí .

Sin embargo, esa no es tu situación. En su caso, me inclinaría a presentar un diagrama de dispersión de los datos originales, tal vez con una relación fluida (por ejemplo, LOESS).

Esperas que la relación sea monótona; quizás podría intentar estimar y trazar una relación monotónica. [Hay una función R discutió aquí que se ajuste de regresión isotónica -. Mientras que el ejemplo no es unimodal no isotónica, la función puede hacer ajustes isotónicas]

Aquí hay un ejemplo del tipo de cosas que quiero decir:

ingrese la descripción de la imagen aquí

La gráfica muestra una relación monotónica entre x e y; la curva roja es un loess suave (en este caso, generada en R por scatter.smooth), que también resulta ser montónica (hay formas de obtener ajustes suaves que se garantiza que sean monótonos, pero en este caso el loess liso predeterminado fue monotónico, por lo que No sentí la necesidad de preocuparme.

ingrese la descripción de la imagen aquí
Gráfica de rango (y) vs rango (x), lo que indica una relación monotónica. La línea verde muestra los rangos de los valores ajustados de la curva de loess contra el rango (x).

La correlación entre los rangos de x e y (es decir, la correlación de Spearman) es 0.892, una asociación monotónica alta. De manera similar, la correlación de Spearman entre la curva ajustada de loess (montonic) ( ) y los valores de y también es 0.892. [Sin embargo, esto no es sorprendente, ya que sería cierto para cualquier curva que sea una función monotónica de aumento de x, todo lo cual también correspondería a la línea verde. La línea verde no es una línea de regresión entre el rango (x) y el rango (y), pero es la línea correspondiente a un ajuste monotónico en la trama original. La 'línea de regresión' para los datos clasificados tiene una pendiente de 0,892, no 1, por lo que es un poco "más plana".]y^

Si no está mostrando nada más que rango (Y) vs X, creo que evitaría usar líneas en los gráficos; Por lo que puedo ver, no transmiten mucho valor por encima del coeficiente de correlación. Y ya dije que solo te interesa la tendencia.

[No sé si está mal trazar una línea de regresión en una trama clasificada y vs clasificada x, la dificultad sería su interpretación.]


Gracias, su respuesta es buena y bien explicada. Sin embargo, me di cuenta de que podría haber omitido información crucial. ¿Sigue siendo válido con la información adicional que proporcioné? Los gráficos siguen más tarde hoy cuando estoy en mi PC de trabajo.
Centinela

Eche un vistazo a mi actualización y vea si cree que algo de eso tiene algún valor.
Glen_b -Reinstate Monica

Sí, es de valor para, pero más en un sentido general. También estoy de acuerdo en que el "error" proviene de la dificultad de interpretar la trama. Me temo que la gente siempre asumirá que quiero predecir el rango de la función, incluso si afirmo que solo quiero mostrar la tendencia .
Centinela

Mirando sus parcelas --- muestra rangos, pero ¿tiene medidas originales de rendimiento en qué rangos se basaron?
Glen_b -Reinstate Monica

Sí, pero no se pueden usar aquí, créeme. El objetivo de mi estudio es comparar los algoritmos con la prueba de Friedman, que los clasifica. Existen múltiples conjuntos de datos con rangos de rendimiento muy diferentes, por lo que solo la comparación entre ellos es interesante aquí.
Centinela

3

El uso de Spearman es equivalente a usar el modelo logístico ordinal de probabilidades proporcionales si uno clasificara el vector mientras modela. El modelo PO generalmente modela en su escala original y puede incluir términos no lineales. Para obtener predicciones, es ventajoso utilizar un enfoque basado en modelos. Puede, por ejemplo, trazar frente a la media pronosticada o la mediana pronosticada partir de un ajuste del modelo PO. Los ejemplos se encuentran en los folletos de http://biostat.mc.vanderbilt.edu/rms .ρXXXYY

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.