¿Cómo leer un archivo .xlsx usando la biblioteca pandas en iPython?


Quiero leer un archivo .xlsx usando la biblioteca Pandas de python y transferir los datos a una tabla postgreSQL.

Todo lo que pude hacer hasta ahora es:

import pandas as pd
data = pd.ExcelFile("*File Name*")

Ahora sé que el paso se ejecutó con éxito, pero quiero saber cómo puedo analizar el archivo de Excel que se ha leído para poder entender cómo los datos en Excel se asignan a los datos en los datos variables.
Aprendí que los datos son un objeto Dataframe si no me equivoco. Entonces, ¿cómo analizo este objeto de marco de datos para extraer cada línea fila por fila?

df = pd.ExcelFile ('Nombre de archivo'). parse ('hoja 1'); ver documentos pandas.pydata.org/pandas-docs/dev/io.html#excel-files



Normalmente creo un diccionario que contiene un DataFramepara cada hoja:

xl_file = pd.ExcelFile(file_name)

dfs = {sheet_name: xl_file.parse(sheet_name) 
          for sheet_name in xl_file.sheet_names}

Actualización: en la versión 0.21.0+ de pandas, obtendrá este comportamiento de manera más limpia al pasar sheet_name=Nonea read_excel:

dfs = pd.read_excel(file_name, sheet_name=None)

En 0.20 y antes, esto era en sheetnamelugar de sheet_name(ahora está en desuso a favor de lo anterior):

dfs = pd.read_excel(file_name, sheetname=None)

Gracias Andy. Esto funcionó. Ahora, mi siguiente paso desde aquí es escribir esto en una base de datos postgreSQL. ¿Qué biblioteca es la mejor para usar? SQLAlchemy?
Sabareesh Kappagantu

Mmmm, si dijeras mysql, sabría la respuesta , es posible que postgres funcione de manera similar ... aunque no al 100%. (Sería una buena pregunta.)
Andy Hayden

Tengo como hacerlo. Usé Sqlalchemy. Tenías razón, es bastante similar a mysql. Implicó crear un motor y luego recopilar los metadatos y jugar con los datos. ¡Gracias de nuevo Andy! :) Agradezco la ayuda.
Sabareesh Kappagantu

pandas.DataFrame.to_sqlpodría ser de ayuda. Para leer, puede usar los dp.pyobjetos que devuelven Pandas DataFrame.
Finn Årup Nielsen

Estoy tratando de lograr algo similar, pero al usar 2 archivos de Excel xlsx para hacer un marco de datos, me pregunto si podría echar un vistazo y ayudarme sobre cómo continuar con esto, pedí ayuda creando otra pregunta stackoverflow.com / preguntas / 16888888 /… @AndyHayden
Deepak M

from pandas import read_excel
# find your sheet name at the bottom left of your excel file and assign 
# it to my_sheet 
my_sheet = 'Sheet1' # change it to your sheet name
file_name = 'products_and_categories.xlsx' # change it to the name of your excel file
df = read_excel(file_name, sheet_name = my_sheet)
print(df.head()) # shows headers with top 5 rows


El read_excelmétodo de DataFrame es como el read_csvmétodo:

dfs = pd.read_excel(xlsx_file, sheetname="sheet1")

En lugar de usar un nombre de hoja, en caso de que no sepa o no pueda abrir el archivo de Excel para verificar en ubuntu (en mi caso, Python 3.6.7, ubuntu 18.04), uso el parámetro index_col (index_col = 0 para la primera hoja)

import pandas as pd
file_name = 'some_data_file.xlsx' 
df = pd.read_excel(file_name, index_col=0)
print(df.head()) # print the first 5 rows

También puede usar sheet_name=0o nombrar la hoja en lugar de 0.

Correcto, funciona. Sin embargo, necesita la dependencia xlrd. (pip3.7.4.exe instala xlrd en Windows)


Asignar nombre de archivo de hoja de cálculo a file

Cargar hoja de cálculo

Imprime los nombres de las hojas

Cargue una hoja en un DataFrame por nombre: df1

file = 'example.xlsx'
xl = pd.ExcelFile(file)
df1 = xl.parse('Sheet1')


Si usa read_excel()en un archivo abierto usando la función open(), asegúrese de agregar rba la función abierta para evitar errores de codificación

