¿Cómo calcular la correlación entre / dentro de los grupos de variables?


13

Tengo una matriz de 1000 observaciones y 50 variables, cada una medida en una escala de 5 puntos. Estas variables están organizadas en grupos, pero no hay un número igual de variables en cada grupo.

Me gustaría calcular dos tipos de correlaciones:

  1. Correlación dentro de grupos de variables (entre características): alguna medida de si las variables dentro del grupo de variables están midiendo lo mismo.
  2. Correlación entre grupos de variables: alguna medida, suponiendo que cada grupo refleje un rasgo general, de cómo cada rasgo (grupo) está relacionado con cualquier otro rasgo.

Estas características se han clasificado previamente en grupos. Estoy interesado en encontrar la correlación entre los grupos, es decir, suponiendo que las características dentro del grupo miden el mismo rasgo subyacente (habiendo completado el # 1 arriba - alfa de Cronbach), ¿están los rasgos relacionados?

¿Alguien tiene sugerencias sobre por dónde empezar?


1
Si está familiarizado con R, hay un paquete vegancon funciones anosimo, preferiblemente, adonis(MANOVA permutacional).
Roman Luštrik

He actualizado su pregunta para tratar de usar la terminología estándar (es decir, variables no características; grupos de variables en lugar de "grupos")
Jeromy Anglim

Respuestas:


16

Lo que sugirió @rolando parece un buen comienzo, si no toda la respuesta (IMO). Permítanme continuar con el enfoque correlacional, siguiendo el marco de la teoría clásica de pruebas (CTT). Aquí, como señaló @Jeromy, una medida de resumen para su grupo de características podría considerarse como la puntuación total (o suma) de todos los elementos (una característica, en sus palabras) que pertenecen a lo que ahora denominaré como una escala. Bajo CTT, esto nos permite formalizar la propensión o responsabilidad de "rasgos" individuales como la ubicación de uno en una escala continua que refleja una construcción subyacente (un rasgo latente), aunque aquí es simplemente una escala ordinal (pero este es otro debate en la literatura de psicometría) .

Lo que describió tiene que ver con lo que se conoce como validez convergente (en qué medida los elementos que pertenecen a la misma escala se correlacionan entre sí) y discriminante (los elementos que pertenecen a diferentes escalas no deben correlacionarse en gran medida) en psicometría. Las técnicas clásicas incluyen análisis de múltiples métodos y múltiples rasgos (MTMM) (Campbell y Fiske, 1959). A continuación se muestra una ilustración de cómo funciona (tres métodos o instrumentos, tres construcciones o rasgos):

ingrese la descripción de la imagen aquí

>0.7<.3

Incluso si este método se desarrolló inicialmente para evaluar la validez convergente y discriminante de un cierto número de rasgos según lo estudiado por diferentes instrumentos de medición, puede aplicarse para un solo instrumento multiescala. Los rasgos se convierten en los elementos, y los métodos son solo las diferentes escalas. Una generalización de este método a un solo instrumento también se conoce como escalamiento multitrait . Los elementos que se correlacionan como se esperaba (es decir, con su propia escala en lugar de una escala diferente) se cuentan como éxito de escala. Sin embargo, generalmente suponemos que las diferentes escalas no están correlacionadas, es decir, están dirigidas a diferentes construcciones hipotéticas. Pero promediar las correlaciones internas y entre escalas proporciona una forma rápida de resumir la estructura interna de su instrumento. Otra forma conveniente de hacerlo es aplicar un análisis de conglomerados en la matriz de correlaciones por pares y ver cómo sus variables se mantienen juntas.

Es de destacar que, en ambos casos, se aplican las advertencias habituales de trabajar con medidas de correlación, es decir, no se puede tener en cuenta el error de medición, se necesita una muestra grande, se supone que los instrumentos o las pruebas son "paralelos" (equivalencia tau, errores no correlacionados, varianzas de error iguales).

La segunda parte abordada por @rolando también es interesante: si no hay una indicación teórica o sustantiva de que la agrupación de elementos ya establecida tiene sentido, entonces deberá encontrar una manera de resaltar la estructura de sus datos con, por ejemplo, análisis factorial exploratorio . Pero incluso si confía en esas "características dentro de un grupo", puede verificar que esta es una suposición válida. Ahora, puede estar utilizando el modelo de análisis factorial confirmatorio para verificar que el patrón de carga de ítems (correlación de un ítem con su propia escala) se comporte como se esperaba.

En lugar de los métodos analíticos de factores tradicionales, también puede echar un vistazo a la agrupación de elementos (Revelle, 1979) que se basa en una regla dividida basada en alfa de Cronbach para agrupar elementos en escalas homogéneas.

Una última palabra: si está utilizando R, hay dos paquetes muy agradables que facilitarán los pasos mencionados anteriormente:

  • psych , le proporciona todo lo necesario para empezar a utilizar métodos psicométricas, incluyendo el análisis de los factores ( fa, fa.parallel, principal), artículos de agrupamiento ( ICLUSTy métodos relacionados), alfa de Cronbach ( alpha); hay una buena visión general disponible en la página web de William Revelle, en especial Una introducción a la teoría psicométrica con aplicaciones en R .
  • psy , también incluye visualización de gráficos (a través de conjuntos de datos simulados PCA +) ( scree.plot) y MTMM ( mtmm).

Referencias

  1. Campbell, DT y Fiske, DW (1959). Validación convergente y discriminante por la matriz multitrait-multimethod. Boletín psicológico , 56: 81-105.
  2. Hays, RD y Fayers, P. (2005). Evaluación de escalas de múltiples artículos. En Evaluación de la calidad de vida en ensayos clínicos , (Fayers, P. y Hays, R., Eds.), Págs. 41-53. Oxford
  3. Revelle, W. (1979). Análisis jerárquico de conglomerados y la estructura interna de las pruebas. Investigación conductual multivariante , 14: 57-74.

Esta es, quizás, la respuesta más interesante que he leído en cualquiera de los intercambios y he estado estudiando econometría durante 5 años.
d8aninja

¿Se supone que la matriz MTMM incluida aquí es un ejemplo realista de una matriz de correlación? Si es así, notaré que en realidad no es una matriz semidefinida positiva: por ejemplo, el menor de 4 por 4 para las correlaciones de los rasgos 1,2 entre los métodos 1,2 tiene determinante -0.0419179. (Dado que este es un valor negativo pequeño, esto quizás simplemente vaya a su punto re: 'error de medición'.)
Semiclassical

7

La forma en que leo su terminología, lo que quiere es primero evaluar la consistencia interna dentro de cada grupo de variables, y luego evaluar las correlaciones entre los puntajes de la escala que constituyen el promedio de cada grupo de variables. El primero se puede hacer usando el alfa de Cronbach, y el segundo usando la correlación de Pearson. Esto supone que tiene distribuciones razonablemente normales y relaciones razonablemente lineales.

Un método más complicado, y no necesariamente obligatorio, sería realizar un análisis factorial exploratorio. Intentaría establecer qué variables deberían agruparse y luego nuevamente hasta qué grado esos factores estarían correlacionados. Si prueba este método, asegúrese de usar rotación oblicua para permitir que aparezcan esas correlaciones. Si usa la extracción de componentes principales o la extracción del eje principal dependerá, respectivamente, de si sus variables son medidas objetivas, sin errores o subjetivas, como elementos de la encuesta que contienen una cierta cantidad de error.


Gracias por su respuesta. He logrado calcular el alfa de Cronbach, pero ¿cómo se calculan los coeficientes de correlación de Pearson en este caso? Podría calcularlos en pares para cada característica individual, pero me gustaría saber cómo calcular las correlaciones entre grupos de características. Las características dentro de un grupo tendrán puntajes similares para cada observación. Voy a editar mi pregunta para aclarar esto un poco.
blep

5
  • Las herramientas estándar, al menos en psicología, en su situación serían el análisis factorial exploratorio y confirmatorio para evaluar la convergencia de la matriz de correlación entre ítems con algún modelo propuesto de la relación entre factores e ítems. La forma en que ha formulado su pregunta sugiere que es posible que no esté familiarizado con esta literatura. Por ejemplo, aquí están mis notas sobre la construcción de la escala y el análisis factorial y aquí hay un tutorial en R sobre el formulario de análisis factorial Quick-R . Por lo tanto, aunque vale la pena responder a su pregunta específica, creo que sus objetivos más amplios serán mejor atendidos al examinar los enfoques analíticos de factores para evaluar escalas de múltiples elementos y múltiples factores.

  • Otra estrategia estándar sería calcular los puntajes totales para cada grupo de variables (lo que yo llamaría una "escala") y correlacionar las escalas.

  • Muchas herramientas de análisis de confiabilidad informarán una correlación promedio entre elementos.

  • Si creó la matriz de correlaciones de 50 por 50 entre los elementos, podría escribir una función en R que promediara los subconjuntos basados ​​en combinaciones de grupos de variables. Es posible que no obtenga lo que desea si tiene una combinación de elementos positivos y negativos, ya que las correlaciones negativas pueden cancelar las correlaciones positivas.


2

Sugeriría usar como un reemplazo para la noción de correlación, que se define solo por pares, la noción de información mutua e integración en los modelos gaussianos.

En los modelos gaussianos, integración de un grupo de variables.sol1 se define como la entropía del grupo:

yo1losol(El |C1El |)

dónde C1 es la matriz de correlación del grupo de variables sol1. Es fácil ver que sisol1 está compuesto solo por 2 variables, su integración es losol(1-ρ2), que se relaciona directamente con el coeficiente de correlación por pares de las variables ρ.

Para calcular la interacción entre dos grupos de variables, puede usar información mutua, que es solo una entropía cruzada entre los grupos:

METROU12=yo12-yo1-yo2

Encontré una referencia sobre estas nociones después de un rápido google que podría ser útil.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.