¿Por qué la correlación no es muy útil cuando una de las variables es categórica?


14

Esto es un poco de verificación intestinal, por favor, ayúdenme a ver si estoy malinterpretando este concepto y de qué manera.

Tengo una comprensión funcional de la correlación, pero me siento un poco aferrado a las pajitas para explicar con confianza los principios detrás de esa comprensión funcional.

Según tengo entendido, la correlación estadística (en oposición al uso más general del término) es una forma de entender dos variables continuas y la forma en que tienden o no a aumentar o disminuir de manera similar.

La razón por la que no puede ejecutar correlaciones en, por ejemplo, una variable continua y una variable categórica es porque no es posible calcular la covarianza entre las dos, ya que la variable categórica por definición no puede producir una media y, por lo tanto, ni siquiera puede entrar en la primera pasos del análisis estadístico.

¿Está bien?


2
Aquí hay diapositivas de conferencias escritas a máquina de una clase que enseño principalmente sobre correlación de población (no muestra) y covarianza people.virginia.edu/~trb5me/3120_slides/5/5.2/5.2.pdf
Taylor

3
Razón simple, imagina que le preguntas a la gente "¿cuál es tu color favorito?" y responden "rojo", "verde", "azul", "naranja", "amarillo", ..., lo que está codificado en su conjunto de datos como 1, 2, 3, ... Luego, calcule el coeficiente de correlación entre dicha variable con satisfacción laboral y valor 0.21. Qué significa eso? ¿Podría proporcionar alguna interpretación significativa?
Tim

2
Estrechamente relacionado (¿quizás incluso un duplicado?) - Correlación entre una variable nominal (IV) y una variable continua (DV)
Silverfish

@Taylor: ¿Qué utilizamos cuando ambas variables son continuas / numéricas, pero una de ellas es estocástica y la otra no, por ejemplo, horas estudiadas frente a GPA?
MSIS

Respuestas:


16

La correlación es la covarianza estandarizada , es decir, la covarianza de X yy dividida por la desviación estándar deX ey . Déjame ilustrar eso.

En términos generales, las estadísticas se pueden resumir como modelos adecuados para los datos y evaluar qué tan bien el modelo describe esos puntos de datos ( Resultado = Modelo + Error ). Una forma de hacerlo es calcular las sumas de desviaciones o residuales (res) del modelo:

rmis=(Xyo-X¯)

Muchos cálculos estadísticos se basan en esto, incl. El coeficiente de correlación (ver abajo).

Aquí hay un conjunto de datos de ejemplo realizado R(los residuos se indican como líneas rojas y sus valores se agregan junto a ellos):

X <- c(8,9,10,13,15)  
Y <- c(5,4,4,6,8)

ingrese la descripción de la imagen aquí

Al observar cada punto de datos individualmente y restar su valor del modelo (por ejemplo, la media; en este caso X=11Y=5.4SS

SS=(Xyo-X¯)(Xyo-X¯)=(Xyo-X¯)2

norte-1s2

s2=SSnorte-1=(Xyo-X¯)(Xyo-X¯)norte-1=(Xyo-X¯)2norte-1

Por conveniencia, se puede tomar la raíz cuadrada de la varianza de la muestra, que se conoce como la desviación estándar de la muestra:

s=s2=SSnorte-1=(Xyo-X¯)2norte-1

Ahora, la covarianza evalúa si dos variables están relacionadas entre sí. Un valor positivo indica que cuando una variable se desvía de la media, la otra variable se desvía en la misma dirección.

CovX,y=(Xyo-X¯)(yyo-y¯)norte-1

r . Esto permite comparar variables entre sí que se midieron en diferentes unidades. El coeficiente de correlación es una medida de la fuerza de una relación que varía de -1 (una correlación negativa perfecta) a 0 (sin correlación) y +1 (una correlación positiva perfecta).

r=CovX,ysXsy=(X1-X¯)(yyo-y¯)(norte-1)sXsy

r=0,87XY

ingrese la descripción de la imagen aquí

En resumen, sí, tu sensación es correcta, pero espero que mi respuesta pueda proporcionar algún contexto.


1
Esto es muy útil: al tratar de profundizar mi propia comprensión, me imagino que si no puedo explicarlo lo suficiente a alguien sin experiencia en estadísticas, no lo entiendo tan bien como pensaba.
Toof

8

Tienes (casi) razón. La covarianza (y, por lo tanto, la correlación también) solo se puede calcular entre variables numéricas. Eso incluye variables continuas pero también variables numéricas discretas.

Las variables categóricas podrían usarse para calcular la correlación solo si se les proporciona un código numérico útil, pero no es probable que esto obtenga una ventaja práctica; tal vez podría ser útil para algunas variables categóricas de dos niveles, pero es probable que otras herramientas sean más adecuadas.


Para agregar al punto de Pere, el coeficiente de correlación de momento del producto de Pearson representa el grado de una relación lineal entre las dos variables. Las medidas no paramétricas como el rho de Spearman o la tau de Kendall caracterizan cuánta tendencia hay para que X e Y aumenten o disminuyan juntas (comportarse en un grado como una relación monotónica que no necesariamente tiene que ser lineal.)
Michael R. Chernick

@Pere: ¿Qué utilizamos cuando tenemos dos variables continuas, pero solo una de ellas es estocástica, por ejemplo, horas ejercidas versus peso?
MSIS

1
@MSIS: esa debería ser una pregunta diferente, pero la correlación se puede usar incluso si una variable no es aleatoria.
Pere

1
@Pere: pregunté, en caso de que esté interesado: stats.stackexchange.com/questions/435257/…
MSIS

3

No hay absolutamente nada de malo en las correlaciones informáticas donde una de las variables es categórica. Una correlación positiva fuerte implicaría que activar o desactivar su variable categórica (según su convención) provoca un aumento en la respuesta. Por ejemplo, esto podría suceder al calcular una regresión logística donde las variables son categóricas: predecir la posibilidad de un ataque cardíaco dadas las comorbilidades del paciente como la diabetes y el IMC. En este caso, el IMC tendría una correlación muy fuerte con los ataques cardíacos. ¿Llegarías a la conclusión de que eso no es útil?

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.