¿Alguien ha hecho alguna referencia?
Sí, el punto de referencia que ha vinculado en su pregunta se ha actualizado recientemente para la versión reciente de data.table y pandas. Además se ha agregado otro software. Puede encontrar un punto de referencia actualizado en https://h2oai.github.io/db-benchmark
Lamentablemente, está programado en una máquina de memoria de 125 GB (no 244 GB como el original). Como resultado, los pandas y dask no pueden intentar datos de groupby
1e9 filas (50GB csv) porque se quedan sin memoria al leer los datos. Entonces, para pandas vs data.table, debe mirar datos de 1e8 filas (5GB).
Para no solo vincular el contenido que está solicitando, pego los tiempos recientes para esas soluciones.
tenga en cuenta que esos horarios están desactualizados,
visite https://h2oai.github.io/db-benchmark para ver los horarios actualizados
| in_rows|question | data.table| pandas|
|-------:|:---------------------|----------:|------:|
| 1e+07|sum v1 by id1 | 0.140| 0.414|
| 1e+07|sum v1 by id1:id2 | 0.411| 1.171|
| 1e+07|sum v1 mean v3 by id3 | 0.574| 1.327|
| 1e+07|mean v1:v3 by id4 | 0.252| 0.189|
| 1e+07|sum v1:v3 by id6 | 0.595| 0.893|
| 1e+08|sum v1 by id1 | 1.551| 4.091|
| 1e+08|sum v1 by id1:id2 | 4.200| 11.557|
| 1e+08|sum v1 mean v3 by id3 | 10.634| 24.590|
| 1e+08|mean v1:v3 by id4 | 2.683| 2.133|
| 1e+08|sum v1:v3 by id6 | 6.963| 16.451|
| 1e+09|sum v1 by id1 | 15.063| NA|
| 1e+09|sum v1 by id1:id2 | 44.240| NA|
| 1e+09|sum v1 mean v3 by id3 | 157.430| NA|
| 1e+09|mean v1:v3 by id4 | 26.855| NA|
| 1e+09|sum v1:v3 by id6 | 120.376| NA|
En 4 de las 5 preguntas, data.table es más rápido y podemos ver que se escala mejor.
Ten en cuenta esta horarios son a partir de ahora , donde id1
, id2
y id3
son campos de caracteres. Esos se cambiarán pronto a HECHO categórico . Además, hay otros factores que pueden afectar esos tiempos en un futuro próximo (como la agrupación en paralelo HECHO ). También vamos a agregar puntos de referencia separados para los datos que tienen NA y varias cardinalidades HECHO .
Otras tareas están llegando a este proyecto de evaluación comparativa continua por lo que si usted está interesado en join
, sort
, read
y otros, asegúrese de comprobar más tarde.
¡Y, por supuesto, puede enviar comentarios en el repositorio de proyectos!