¿Cómo importar datos de archivos CSV en una tabla PostgreSQL?

602

¿Cómo puedo escribir un procedimiento almacenado que importe datos de un archivo CSV y complete la tabla?

postgresql csv postgresql-copy

— vardhan
fuente

18

¿Por qué un procedimiento almacenado? COPY hace el truco

— Frank Heikens

1

Tengo una interfaz de usuario que carga el archivo csv, para conectar esto necesito el procedimiento almacenado que realmente copia los datos del archivo cvs

— vardhan

3

¿podría explicar cómo usar la COPIA?

— vardhan

17

Bozhidar Batsov ya le dio un enlace a un ejemplo, el buen manual también podría ayudar: postgresql.org/docs/8.4/interactive/sql-copy.html

— Frank Heikens

55

Manual actual: postgresql.org/docs/current/static/sql-copy.html

— Basil Bourque

775

Echa un vistazo a este breve artículo .

Solución parafraseada aquí:

Crea tu mesa:

CREATE TABLE zip_codes 
(ZIP char(5), LATITUDE double precision, LONGITUDE double precision, 
CITY varchar, STATE char(2), COUNTY varchar, ZIP_CLASS varchar);

Copie los datos de su archivo CSV a la tabla:

COPY zip_codes FROM '/path/to/csv/ZIP_CODES.txt' WITH (FORMAT csv);

— Bozhidar Batsov
fuente

46

realmente use \ copy haría el mismo truco si no tiene acceso de superusuario; se queja en mi Fedora 16 cuando uso COPY con una cuenta no root.

— askw0rder

81

SUGERENCIA: puede indicar qué columnas tiene en el CSV utilizando los códigos postales (col1, col2, col3). Las columnas deben aparecer en el mismo orden en que aparecen en el archivo.

— David Peláez

66

@ askw0rder ¿\ copy tiene la misma sintaxis? porque tengo un error de sintaxis con \ copy

— JhovaniC

66

¿Debo incluir la fila del encabezado?

— bernie2436

116

Puede incluir fácilmente la fila del encabezado: simplemente agregue HEADER en las opciones: COPY zip_codes FROM '/path/to/csv/ZIP_CODES.txt' DELIMITER ',' CSV HEADER; postgresql.org/docs/9.1/static/sql-copy.html

— Barrett Clark

222

Si no tiene permiso para usar COPY(que funciona en el servidor db), puede usar \copyen su lugar (que funciona en el cliente db). Usando el mismo ejemplo que Bozhidar Batsov:

Crea tu mesa:

CREATE TABLE zip_codes 
(ZIP char(5), LATITUDE double precision, LONGITUDE double precision, 
CITY varchar, STATE char(2), COUNTY varchar, ZIP_CLASS varchar);

Copie los datos de su archivo CSV a la tabla:

\copy zip_codes FROM '/path/to/csv/ZIP_CODES.txt' DELIMITER ',' CSV

También puede especificar las columnas para leer:

\copy zip_codes(ZIP,CITY,STATE) FROM '/path/to/csv/ZIP_CODES.txt' DELIMITER ',' CSV

Consulte la documentación para COPIA :

No confunda COPY con la instrucción psql \ copy. \ copy invoca COPY FROM STDIN o COPY TO STDOUT, y luego recupera / almacena los datos en un archivo accesible para el cliente psql. Por lo tanto, la accesibilidad de los archivos y los derechos de acceso dependen del cliente en lugar del servidor cuando se usa \ copy.

y nota:

Para las columnas de identidad, el comando COPIAR DESDE siempre escribirá los valores de columna proporcionados en los datos de entrada, como la opción INSERTAR VALOR DE ANULACIÓN DEL SISTEMA.

— bjelli
fuente

\ copiar votantes (ZIP, CITY) FROM '/Users/files/Downloads/WOOD.TXT' DELIMITER ',' CSV HEADER; ERROR: datos adicionales después de la última columna esperada CONTEXTO: COPIA de votantes, línea 2: "OH0012781511,87,26953, HOGAR, SHERRY, LEIGH ,, 11/26 / 1965,08 / 19/1988,, 211 N GARFIELD ST,, BLOOMD ... "

— JZ.

@JZ. Tuve un error similar Fue porque tenía columnas extra en blanco. Verifique su csv y si tiene columnas en blanco, esa podría ser la razón.

— alex bennett

55

Esto es algo engañoso: la diferencia entre COPYy \copyes mucho más que solo permisos, y no puede simplemente agregar un `` para que funcione mágicamente. Consulte la descripción (en el contexto de la exportación) aquí: stackoverflow.com/a/1517692/157957

— IMSoP el

@IMSoP: tienes razón, agregué una mención de servidor y cliente para aclarar

— bjelli

@bjelli es \ copy más lento que copy? Tengo un archivo de 1.5MB y una instancia db.m4.large en RDS y hace horas que este comando de copia se ha estado ejecutando (al menos 3).

— Sebastian

79

Una forma rápida de hacerlo es con la biblioteca de pandas de Python (la versión 0.15 o superior funciona mejor). Esto manejará la creación de las columnas por usted, aunque obviamente las elecciones que hace para los tipos de datos podrían no ser lo que desea. Si no hace lo que quiere, siempre puede usar el código 'crear tabla' generado como plantilla.

Aquí hay un ejemplo simple:

import pandas as pd
df = pd.read_csv('mypath.csv')
df.columns = [c.lower() for c in df.columns] #postgres doesn't like capitals or spaces

from sqlalchemy import create_engine
engine = create_engine('postgresql://username:password@localhost:5432/dbname')

df.to_sql("my_table_name", engine)

Y aquí hay un código que le muestra cómo configurar varias opciones:

# Set it so the raw sql output is logged
import logging
logging.basicConfig()
logging.getLogger('sqlalchemy.engine').setLevel(logging.INFO)

df.to_sql("my_table_name2", 
          engine, 
          if_exists="append",  #options are ‘fail’, ‘replace’, ‘append’, default ‘fail’
          index=False, #Do not output the index of the dataframe
          dtype={'col1': sqlalchemy.types.NUMERIC,
                 'col2': sqlalchemy.types.String}) #Datatypes should be [sqlalchemy types][1]

— RobinL
fuente

66

Además, el if_existsparámetro se puede configurar para reemplazar o agregar a una tabla existente, por ejemplodf.to_sql("fhrs", engine, if_exists='replace')

— joelostblom

1

nombre de usuario y contraseña: es necesario crear un inicio de sesión y asignar DB al usuario. Si usa pgAdmin, cree el "rol de inicio de sesión / grupo" con GUI

— Somnath Kadam

99

Pandas es una forma súper lenta de cargar en sql (vs archivos csv). Pueden ser órdenes de magnitud más lentas.

— user48956

Esta podría ser una forma de escribir datos, pero es súper lento incluso con lotes y buena potencia de cómputo. Usar CSV es una buena manera de lograr esto.

— Ankit Singh

df.to_sql()es realmente lento, puedes usarlo d6tstack.utils.pd_to_psql()desde d6tstack ver comparación de rendimiento

— citynorman

30

También puede usar pgAdmin, que ofrece una GUI para importar. Eso se muestra en este hilo SO . La ventaja de usar pgAdmin es que también funciona para bases de datos remotas.

Sin embargo, al igual que las soluciones anteriores, ya debería tener su tabla en la base de datos. Cada persona tiene su propia solución, pero lo que generalmente hago es abrir el archivo CSV en Excel, copiar los encabezados, pegar especiales con transposición en una hoja de trabajo diferente, colocar el tipo de datos correspondiente en la siguiente columna y luego copiarlo y pegarlo en un editor de texto junto con la consulta de creación de la tabla SQL adecuada de la siguiente manera:

CREATE TABLE my_table (
    /*paste data from Excel here for example ... */
    col_1 bigint,
    col_2 bigint,
    /* ... */
    col_n bigint 
)

— Pablo
fuente

1

los pls muestran un par de filas de muestra de sus datos pegados

— dcorking

29

La mayoría de las otras soluciones aquí requieren que cree la tabla por adelantado / manualmente. Esto puede no ser práctico en algunos casos (por ejemplo, si tiene muchas columnas en la tabla de destino). Entonces, el siguiente enfoque puede ser útil.

Al proporcionar la ruta y el recuento de columnas de su archivo csv, puede usar la siguiente función para cargar su tabla en una tabla temporal que se denominará como target_table :

Se supone que la fila superior tiene los nombres de columna.

create or replace function data.load_csv_file
(
    target_table text,
    csv_path text,
    col_count integer
)

returns void as $$

declare

iter integer; -- dummy integer to iterate columns with
col text; -- variable to keep the column name at each iteration
col_first text; -- first column name, e.g., top left corner on a csv file or spreadsheet

begin
    create table temp_table ();

    -- add just enough number of columns
    for iter in 1..col_count
    loop
        execute format('alter table temp_table add column col_%s text;', iter);
    end loop;

    -- copy the data from csv file
    execute format('copy temp_table from %L with delimiter '','' quote ''"'' csv ', csv_path);

    iter := 1;
    col_first := (select col_1 from temp_table limit 1);

    -- update the column names based on the first row which has the column names
    for col in execute format('select unnest(string_to_array(trim(temp_table::text, ''()''), '','')) from temp_table where col_1 = %L', col_first)
    loop
        execute format('alter table temp_table rename column col_%s to %s', iter, col);
        iter := iter + 1;
    end loop;

    -- delete the columns row
    execute format('delete from temp_table where %s = %L', col_first, col_first);

    -- change the temp table name to the name given as parameter, if not blank
    if length(target_table) > 0 then
        execute format('alter table temp_table rename to %I', target_table);
    end if;

end;

$$ language plpgsql;

— mehmet
fuente

1

Hola Mehmet, gracias por la respuesta que publicaste, pero cuando ejecuto tu código recibo el siguiente mensaje de error: ERROR: el esquema "datos" no existe

— usuario2867432

user2867432 necesita cambiar el nombre de esquema que usa en consecuencia (por ejemplo, public)

— mehmet

Hola Mehmet, gracias por la solución, es perfecto, pero esto funciona solo si el usuario de Postgres DB es superusuario, ¿hay alguna forma de hacerlo funcionar sin superusuario?

— Geeme

Geeme: lea "definidor de seguridad" aquí , pero no lo he usado yo mismo.

— mehmet

Hermosa respuesta! Sin embargo, no voy a ser demasiado genérico en mi código para que otros puedan leerlo.

— Manohar Reddy Poreddy

19

Como mencionó Paul, la importación funciona en pgAdmin:

haga clic derecho en la tabla -> importar

seleccionar archivo local, formato y codificación

Aquí hay una captura de pantalla alemana pgAdmin GUI:

algo similar que puede hacer con DbVisualizer (tengo una licencia, no estoy seguro acerca de la versión gratuita)

haga clic derecho en una tabla -> Importar datos de tabla ...

— Andreas L.
fuente

2

DBVisualizer tardó 50 segundos en importar 1400 filas con tres campos, y tuve que devolver todo de una Cadena a lo que se suponía que era.

— Noumenon

19

COPY table_name FROM 'path/to/data.csv' DELIMITER ',' CSV HEADER;

— Timxor
fuente

10

crear una tabla primero
Luego use el comando copiar para copiar los detalles de la tabla:

copie nombre_tabla (C1, C2, C3 ....)
de 'ruta a su archivo csv' delimitador ',' encabezado csv;

Gracias

— usuario9130085
fuente

3

¿Cómo es que esta no es la respuesta aceptada? ¿Por qué escribiría un script de Python cuando la base de datos ya tiene un comando para hacer esto?

— Wes

8

Usa este código SQL

    copy table_name(atribute1,attribute2,attribute3...)
    from 'E:\test.csv' delimiter ',' csv header

la palabra clave de encabezado le permite al DBMS saber que el archivo csv tiene un encabezado con atributos

para más información visite http://www.postgresqltutorial.com/import-csv-file-into-posgresql-table/

— djdere
fuente

8

Experiencia personal con PostgreSQL, aún esperando una forma más rápida.

1. Cree el esqueleto de la tabla primero si el archivo se almacena localmente:

    drop table if exists ur_table;
    CREATE TABLE ur_table
    (
        id serial NOT NULL,
        log_id numeric, 
        proc_code numeric,
        date timestamp,
        qty int,
        name varchar,
        price money
    );
    COPY 
        ur_table(id, log_id, proc_code, date, qty, name, price)
    FROM '\path\xxx.csv' DELIMITER ',' CSV HEADER;

2. Cuando \ path \ xxx.csv está en el servidor, postgreSQL no tiene permiso para acceder al servidor, deberá importar el archivo .csv a través de la funcionalidad integrada pgAdmin.

Haga clic derecho en el nombre de la tabla, elija importar.