Tengo un marco de datos de pandas con varias entradas, y quiero calcular la correlación entre los ingresos de algún tipo de tiendas. Hay una serie de tiendas con datos de ingresos, clasificación del área de actividad (teatro, tiendas de ropa, comida ...) y otros datos.
Intenté crear un nuevo marco de datos e insertar una columna con los ingresos de todo tipo de tiendas que pertenecen a la misma categoría, y el marco de datos que regresa solo tiene la primera columna llena y el resto está lleno de NaN. El código que me cansé:
corr = pd.DataFrame()
for at in activity:
stores.loc[stores['Activity']==at]['income']
Quiero hacerlo, así puedo usar .corr()
para dar la matriz de correlación entre la categoría de tiendas.
Después de eso, me gustaría saber cómo puedo trazar los valores de la matriz (-1 a 1, ya que quiero usar la correlación de Pearson) con matplolib.