Tengo el siguiente marco de datos de pandas Top15
:
Creo una columna que estima la cantidad de documentos citables por persona:
Top15['PopEst'] = Top15['Energy Supply'] / Top15['Energy Supply per Capita']
Top15['Citable docs per Capita'] = Top15['Citable documents'] / Top15['PopEst']
Quiero saber la correlación entre el número de documentos citables per cápita y el suministro de energía per cápita. Entonces utilizo el .corr()
método (correlación de Pearson):
data = Top15[['Citable docs per Capita','Energy Supply per Capita']]
correlation = data.corr(method='pearson')
Quiero devolver un solo número, pero el resultado es:
.corr
directamente a su marco de datos, devolverá todas las correlaciones por pares; es por eso que luego observa 1s en la diagonal de su matriz (cada columna está perfectamente correlacionada consigo misma). Vea mi edición a continuación.