¿Cómo envío los resultados de una consulta HiveQL a CSV?

Question 1

nos gustaría poner los resultados de una consulta de Hive en un archivo CSV. Pensé que el comando debería verse así:

insert overwrite directory '/home/output.csv' select books from table;

Cuando lo ejecuto, dice que se completó correctamente, pero nunca puedo encontrar el archivo. ¿Cómo encuentro este archivo o debo extraer los datos de otra manera?

Question 2

Aunque se puede utilizar INSERT OVERWRITEpara obtener datos de Hive, es posible que no sea el mejor método para su caso particular. Primero déjeme explicar qué INSERT OVERWRITEhace, luego describiré el método que uso para obtener archivos tsv de las tablas de Hive.

Según el manual , su consulta almacenará los datos en un directorio en HDFS. El formato no será csv.

Los datos escritos en el sistema de archivos se serializan como texto con columnas separadas por ^ A y filas separadas por líneas nuevas. Si alguna de las columnas no es de tipo primitivo, esas columnas se serializan en formato JSON.

Una ligera modificación (agregando la LOCALpalabra clave) almacenará los datos en un directorio local.

INSERT OVERWRITE LOCAL DIRECTORY '/home/lvermeer/temp' select books from table;

Cuando ejecuto una consulta similar, así es como se ve el resultado.

[lvermeer@hadoop temp]$ ll
total 4
-rwxr-xr-x 1 lvermeer users 811 Aug  9 09:21 000000_0
[lvermeer@hadoop temp]$ head 000000_0 
"row1""col1"1234"col3"1234FALSE
"row2""col1"5678"col3"5678TRUE

Personalmente, generalmente ejecuto mi consulta directamente a través de Hive en la línea de comando para este tipo de cosas, y la canalizo al archivo local de esta manera:

hive -e 'select books from table' > /home/lvermeer/temp.tsv

Eso me da un archivo separado por tabulaciones que puedo usar. Espero que también te sea útil.

Basado en este parche-3682 , sospecho que hay una mejor solución disponible cuando se usa Hive 0.11, pero no puedo probarlo por mí mismo. La nueva sintaxis debería permitir lo siguiente.

INSERT OVERWRITE LOCAL DIRECTORY '/home/lvermeer/temp' 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ',' 
select books from table;

Espero que ayude.

Question 3

Si desea un archivo CSV, puede modificar las soluciones de Lukas de la siguiente manera (asumiendo que está en una caja de Linux):

hive -e 'select books from table' | sed 's/[[:space:]]\+/,/g' > /home/lvermeer/temp.csv

Question 4

Debe utilizar la instrucción CREATE TABLE AS SELECT (CTAS) para crear un directorio en HDFS con los archivos que contienen los resultados de la consulta. Después de eso, tendrá que exportar esos archivos de HDFS a su disco normal y fusionarlos en un solo archivo.

También es posible que tenga que hacer algunos trucos para convertir los archivos de '\ 001' - delimitados a CSV. Puede utilizar un CSV SerDe personalizado o posprocesar el archivo extraído.

Question 5

Puede utilizar INSERT…… DIRECTORY, como en este ejemplo:

INSERT OVERWRITE LOCAL DIRECTORY '/tmp/ca_employees'
SELECT name, salary, address
FROM employees
WHERE se.state = 'CA';

OVERWRITEy LOCALtienen las mismas interpretaciones que antes y los caminos se interpretan siguiendo las reglas habituales. Se escribirán uno o más archivos /tmp/ca_employees, según el número de reductores invocados.

Question 6

Si está utilizando HUE, esto también es bastante simple. Simplemente vaya al editor de Hive en HUE, ejecute su consulta de Hive, luego guarde el archivo de resultados localmente como XLS o CSV, o puede guardar el archivo de resultados en HDFS.

Question 7

Estaba buscando una solución similar, pero las mencionadas aquí no funcionarían. Mis datos tenían todas las variaciones de espacios en blanco (espacio, nueva línea, tabulación) caracteres y comas.

Para hacer que los datos de la columna sean seguros, reemplacé todos los caracteres \ t en los datos de la columna con un espacio y ejecuté el código de Python en la línea de comandos para generar un archivo csv, como se muestra a continuación:

hive -e 'tab_replaced_hql_query' |  python -c 'exec("import sys;import csv;reader = csv.reader(sys.stdin, dialect=csv.excel_tab);writer = csv.writer(sys.stdout, dialect=csv.excel)\nfor row in reader: writer.writerow(row)")'

Esto creó un csv perfectamente válido. Espero que esto ayude a aquellos que vienen buscando esta solución.

Question 8

Puede usar la función de cadena de colmena CONCAT_WS( string delimiter, string str1, string str2...strn )

por ejemplo:

hive -e 'select CONCAT_WS(',',cola,colb,colc...,coln) from Mytable' > /home/user/Mycsv.csv

Question 9

Esta es la forma más amigable de csv que encontré para generar los resultados de HiveQL.
No necesita ningún comando grep o sed para formatear los datos, en su lugar, hive lo admite, solo necesita agregar una etiqueta adicional de formato de salida.

hive --outputformat=csv2 -e 'select * from <table_name> limit 20' > /path/toStore/data/results.csv

Question 10

Tuve un problema similar y así fue como pude abordarlo.

Paso 1 : cargó los datos de la tabla Hive en otra tabla de la siguiente manera

DROP TABLE IF EXISTS TestHiveTableCSV;
CREATE TABLE TestHiveTableCSV 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n' AS
SELECT Column List FROM TestHiveTable;

Paso 2 : copió el blob del almacén de Hive en la nueva ubicación con la extensión adecuada

Start-AzureStorageBlobCopy
-DestContext $destContext 
-SrcContainer "Source Container"
-SrcBlob "hive/warehouse/TestHiveTableCSV/000000_0"
-DestContainer "Destination Container"
-DestBlob "CSV/TestHiveTable.csv"

Question 11

hive  --outputformat=csv2 -e "select * from yourtable" > my_file.csv

o

hive  --outputformat=csv2 -e "select * from yourtable" > [your_path]/file_name.csv

Para tsv, simplemente cambie csv a tsv en las consultas anteriores y ejecute sus consultas

Question 12

El separador predeterminado es " ^A". En lenguaje Python, es " \x01".

Cuando quiero cambiar el delimitador, uso SQL como:

SELECT col1, delimiter, col2, delimiter, col3, ..., FROM table

Luego, considere delimitador + " ^A" como un nuevo delimitador.

Question 13

Probé varias opciones, pero esta sería una de las soluciones más simples para Python Pandas:

hive -e 'select books from table' | grep "|" ' > temp.csv

df=pd.read_csv("temp.csv",sep='|')

También puede utilizar tr "|" ","para convertir "|" a ","

Question 14

Similar a la respuesta de Ray anterior, Hive View 2.0 en Hortonworks Data Platform también le permite ejecutar una consulta de Hive y luego guardar la salida como csv.

Question 15

En caso de que lo esté haciendo desde Windows, puede usar el script de Python hivehoney para extraer los datos de la tabla al archivo CSV local.

Va a:

Inicie sesión en el servidor bastión.
pbrun.
kinit.
beeline (con su consulta).
Guarde el eco de beeline en un archivo en Windows.

Ejecútelo así:

set PROXY_HOST=your_bastion_host

set SERVICE_USER=you_func_user

set LINUX_USER=your_SOID

set LINUX_PWD=your_pwd

python hh.py --query_file=query.sql

Question 16

Solo para cubrir más pasos siguientes después de iniciar la consulta: INSERT OVERWRITE LOCAL DIRECTORY '/home/lvermeer/temp' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' select books from table;

En mi caso, los datos generados en la carpeta temporal están en deflateformato y se ve así:

$ ls
000000_0.deflate  
000001_0.deflate  
000002_0.deflate  
000003_0.deflate  
000004_0.deflate  
000005_0.deflate  
000006_0.deflate  
000007_0.deflate

Aquí está el comando para descomprimir los archivos desinflados y poner todo en un archivo csv:

hadoop fs -text "file:///home/lvermeer/temp/*" > /home/lvermeer/result.csv

Question 17

Puede que llegue tarde a este, pero ayudaría con la respuesta:

Question 18

Este comando de shell imprime el formato de salida en csv output.txtsin los encabezados de columna.

$ hive --outputformat=csv2 -f 'hivedatascript.hql' --hiveconf hive.cli.print.header=false > output.txt

Question 19

Usa el comando:

colmena -e "use [nombre_base_datos]; seleccione * de [nombre_tabla] LIMIT 10;" > /ruta/a/archivo/mi_nombre_archivo.csv

Tenía un enorme conjunto de datos cuyos detalles estaba tratando de organizar y determinar los tipos de ataques y los números de cada tipo. Un ejemplo que usé en mi práctica que funcionó (y tenía un poco más de detalles) es algo como esto:

hive -e "use DataAnalysis;
select attack_cat, 
case when attack_cat == 'Backdoor' then 'Backdoors' 
when length(attack_cat) == 0 then 'Normal' 
when attack_cat == 'Backdoors' then 'Backdoors' 
when attack_cat == 'Fuzzers' then 'Fuzzers' 
when attack_cat == 'Generic' then 'Generic' 
when attack_cat == 'Reconnaissance' then 'Reconnaissance' 
when attack_cat == 'Shellcode' then 'Shellcode' 
when attack_cat == 'Worms' then 'Worms' 
when attack_cat == 'Analysis' then 'Analysis' 
when attack_cat == 'DoS' then 'DoS' 
when attack_cat == 'Exploits' then 'Exploits' 
when trim(attack_cat) == 'Fuzzers' then 'Fuzzers' 
when trim(attack_cat) == 'Shellcode' then 'Shellcode' 
when trim(attack_cat) == 'Reconnaissance' then 'Reconnaissance' end,
count(*) from actualattacks group by attack_cat;">/root/data/output/results2.csv