El problema con las correlaciones en las observaciones completas por pares
En el caso que describa, el problema principal es la interpretación. Debido a que está utilizando observaciones completas por pares, en realidad está analizando conjuntos de datos ligeramente diferentes para cada una de las correlaciones, según las observaciones que faltan.
Considere el siguiente ejemplo:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
Tres variables en el conjunto de datos, a
, b
, y c
, cada uno tiene algunos valores que faltan. Si calcula las correlaciones en pares de variables aquí, solo podrá usar casos que no tengan valores faltantes para ambas variables en cuestión. En este caso, eso significa que analizará solo los últimos 3 casos para la correlación entre a
y b
, solo los primeros tres casos para la correlación entre b
y c
, etc.
El hecho de que esté analizando casos completamente diferentes cuando calcula cada correlación significa que el patrón de correlaciones resultante puede parecer absurdo. Ver:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
Esto parece una contradicción lógica --- a
y b
están fuertemente correlacionados positivamente, y b
y c
también están fuertemente correlacionados positivamente, por lo que se puede esperar a
y c
tener una correlación positiva también, pero en realidad hay una fuerte asociación en la dirección opuesta. Puedes ver por qué a muchos analistas no les gusta eso.
Edite para incluir aclaraciones útiles de whuber:
Tenga en cuenta que parte del argumento depende de lo que pueda significar una correlación "fuerte". Es bastante posible que a
y b
así como b
y c
estén "fuertemente correlacionados positivamente" mientras exista una "fuerte asociación en la dirección opuesta" entre a
y c
, pero no tan extrema como en este ejemplo. El quid de la cuestión es que la matriz de correlación (o covarianza) estimada podría no ser positiva definida: así es como se debe cuantificar "fuerte".
El problema con el tipo de falta
Puede estar pensando: "Bueno, ¿no está bien asumir que el subconjunto de casos que tengo disponible para cada correlación sigue más o menos el mismo patrón que obtendría si tuviera datos completos?" Y sí, eso es cierto: no hay nada fundamentalmente malo en calcular una correlación en un subconjunto de sus datos (aunque pierde precisión y potencia, por supuesto, debido al tamaño de muestra más pequeño), siempre que los datos disponibles sean aleatorios muestra de todos los datos que habrían estado allí si no tuviera ninguna falta.
Cuando la falta es puramente aleatoria, eso se llama MCAR (falta completamente al azar). En ese caso, analizar el subconjunto de los datos que no faltan no sesgará sistemáticamente sus resultados, y sería poco probable (pero no imposible) obtener el tipo de patrón de correlación loco que mostré en el ejemplo anterior.
Cuando su falta es sistemática de alguna manera (a menudo abreviada MAR o NI, delineando dos tipos diferentes de falta sistemática), entonces tiene problemas mucho más serios, tanto en términos de introducir sesgos potenciales en sus cálculos como en términos de su capacidad para generalizar su resultados para la población de interés (porque la muestra que está analizando no es una muestra aleatoria de la población, incluso si su conjunto de datos completo lo hubiera sido).
Hay un montón de grandes recursos disponibles para aprender acerca de los datos que faltan y cómo tratar con él, pero mi recomendación es Rubin:
un clásico ,
y un artículo más reciente