Tengo una estructura de tabla particionada como:
CREATE TABLE measurements (
sensor_id bigint,
tx timestamp,
measurement int
);
CREATE TABLE measurements_201201(
CHECK (tx >= '2012-01-01 00:00:00'::timestamp without time zone
AND tx < ('2012-01-01 00:00:00'::timestamp without time zone + '1 mon'::interval))
)INHERITS (measurements);
CREATE INDEX ON measurements_201201(sensor_id);
CREATE INDEX ON measurements_201201(tx);
CREATE INDEX ON measurements_201201(sensor_id, tx);
....
Y así. Cada tabla tiene aproximadamente 20 millones de filas.
Si busco una muestra de sensores y una muestra de marcas de tiempo en la WHERE
cláusula, el plan de consulta muestra las tablas correctas que se seleccionan y los índices que se utilizan, por ejemplo:
SELECT *
FROM measurements
INNER JOIN sensors TABLESAMPLE BERNOULLI (0.01) USING (sensor_id)
WHERE tx BETWEEN '2015-01-04 05:00' AND '2015-01-04 06:00'
OR tx BETWEEN '2015-02-04 05:00' AND '2015-02-04 06:00'
OR tx BETWEEN '2014-03-05 05:00' AND '2014-04-07 06:00' ;
Sin embargo, si uso un CTE, o pongo los valores de la marca de tiempo en una tabla (no se muestra, incluso con índices en la tabla temporal).
WITH sensor_sample AS(
SELECT sensor_id, start_ts, end_ts
FROM sensors TABLESAMPLE BERNOULLI (0.01)
CROSS JOIN (VALUES (TIMESTAMP '2015-01-04 05:00', TIMESTAMP '2015-01-04 06:00'),
(TIMESTAMP '2015-02-04 05:00', TIMESTAMP '2015-02-04 06:00'),
(TIMESTAMP '2014-03-05 05:00', '2014-04-07 06:00') ) tstamps(start_ts, end_ts)
)
Algo como lo de abajo
SET constraint_exclusion = on;
SELECT * FROM measurements
INNER JOIN sensor_sample USING (sensor_id)
WHERE tx BETWEEN start_ts AND end_ts
Realiza una exploración de índice en cada tabla. Lo que aún es relativamente rápido, pero con una complejidad cada vez mayor de consultas, esto puede convertirse en escaneos seq que terminarán siendo muy lentos para recuperar ~ 40K filas de un subconjunto limitado de tablas particionadas (4-5 de 50).
Me preocupa que algo como esto sea el problema.
Para expresiones no triviales, debe repetir la condición más o menos textualmente en las consultas para que el planificador de consultas de Postgres comprenda que puede confiar en la restricción CHECK. ¡Incluso si parece redundante!
¿Cómo puedo mejorar la estructura de particionamiento y consulta para reducir la probabilidad de ejecutar exploraciones seq en todos mis datos?