¿Cómo puedo importar un archivo .csv en marcos de datos pyspark? Incluso intenté leer el archivo csv en Pandas y luego convertirlo en un marco de datos de chispa usando createDataFrame, pero todavía muestra algún error. ¿Alguien puede guiarme a través de esto? Además, por favor dígame ¿cómo puedo importar un archivo xlsx? Estoy tratando de importar contenido csv en marcos de datos de pandas y luego convertirlo en marcos de datos de chispa, pero muestra el error:
"Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
Mi código es:
from pyspark import SparkContext
from pyspark.sql import SQLContext
import pandas as pd
sqlc=SQLContext(sc)
df=pd.read_csv(r'D:\BestBuy\train.csv')
sdf=sqlc.createDataFrame(df)