Aquí está mi tabla con ~ 10,000,000 filas de datos
CREATE TABLE `votes` (
`subject_name` varchar(32) COLLATE utf8_unicode_ci NOT NULL,
`subject_id` int(11) NOT NULL,
`voter_id` int(11) NOT NULL,
`rate` int(11) NOT NULL,
`updated_at` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP,
PRIMARY KEY (`subject_name`,`subject_id`,`voter_id`),
KEY `IDX_518B7ACFEBB4B8AD` (`voter_id`),
KEY `subject_timestamp` (`subject_name`,`subject_id`,`updated_at`),
KEY `voter_timestamp` (`voter_id`,`updated_at`),
CONSTRAINT `FK_518B7ACFEBB4B8AD` FOREIGN KEY (`voter_id`) REFERENCES `users` (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci;
Aquí están los índices de cardinalidades
Entonces cuando hago esta consulta:
SELECT SQL_NO_CACHE * FROM votes WHERE
voter_id = 1099 AND
rate = 1 AND
subject_name = 'medium'
ORDER BY updated_at DESC
LIMIT 20 OFFSET 100;
Esperaba que voter_timestamp
usara índice pero mysql elige usar esto en su lugar:
explain select SQL_NO_CACHE * from votes where subject_name = 'medium' and voter_id = 1001 and rate = 1 order by updated_at desc limit 20 offset 100;`
type:
index_merge
possible_keys:
PRIMARY,IDX_518B7ACFEBB4B8AD,subject_timestamp,voter_timestamp
key:
IDX_518B7ACFEBB4B8AD,PRIMARY
key_len:
102,98
ref:
NULL
rows:
9255
filtered:
10.00
Extra:
Using intersect(IDX_518B7ACFEBB4B8AD,PRIMARY); Using where; Using filesort
Y obtuve 200-400ms de tiempo de consulta.
Si lo fuerzo a usar el índice correcto como:
SELECT SQL_NO_CACHE * FROM votes USE INDEX (voter_timestamp) WHERE
voter_id = 1099 AND
rate = 1 AND
subject_name = 'medium'
ORDER BY updated_at DESC
LIMIT 20 OFFSET 100;
Mysql puede devolver los resultados en 1-2 ms
y aquí está la explicación:
type:
ref
possible_keys:
voter_timestamp
key:
voter_timestamp
key_len:
4
ref:
const
rows:
18714
filtered:
1.00
Extra:
Using where
Entonces, ¿por qué mysql no eligió el voter_timestamp
índice para mi consulta original?
Lo que había intentado es analyze table votes
, optimize table votes
soltar ese índice y agregarlo nuevamente, pero mysql todavía usa el índice incorrecto. No entiendo bien cuál es el problema.
(voter_id, updated_at)
. Otro índice sería (voter_id, subject_name, updated_at)
o (subject_name, voter_id, updated_at)
(sin la tasa).
subject_name='medium' and rate=1
)
LIMIT
o incluso a ORDER BY
menos que el índice satisfaga primero todo el filtrado. Es decir, sin las 4 columnas completas, recopilará todas las filas relevantes, las ordenará todas y luego las eliminará LIMIT
. Con el índice de 4 columnas, la consulta puede evitar la clasificación y detenerse después de leer solo las LIMIT
filas.
subject_name = "medium"
pieza, también puede elegir el índice correcto, no es necesario indexarrate