El documento CMU-Intel que citó muestra (en la página 5) que la tasa de error depende en gran medida del número de pieza / fecha de fabricación del módulo DRAM y varía en un factor de 10-1000. También hay algunos indicios de que el problema es mucho menos pronunciado en los chips fabricados recientemente (2014).
El número '9.4x10 ^ -14' que citó se usó en el contexto de un mecanismo de mitigación teórico propuesto llamado "PARA" (que podría ser similar a un mecanismo de mitigación pTRR existente (pseudo Target Row Refresh)) y es irrelevante para su pregunta, porque PARA no tiene nada que ver con ECC.
Un segundo papel CMU-Intel (página 10) menciona los efectos de diferentes algoritmos ECC en la reducción de errores (factor 10 ^ 2 a 10 ^ 5, posiblemente mucho más con pruebas de memoria sofisticadas y "bandas de protección").
ECC efectivamente convierte el exploit Row Hammer en un ataque DOS. El ECC corregirá los errores de 1 bit, y tan pronto como se detecte un error de 2 bits no corregible, el sistema se detendrá (suponiendo un ECC SECDED).
Una solución es comprar hardware que admita pTRR o TRR. Vea la publicación de blog actual de Cisco sobre Row Hammer . Al menos algunos fabricantes parecen tener uno de estos mecanismos de mitigación integrados en sus módulos DRAM, pero lo mantienen profundamente oculto en sus especificaciones. Para responder a su pregunta: pregúntele al vendedor.
Las velocidades de actualización más rápidas (32 ms en lugar de 64 ms) y los intervalos agresivos de Patrol Scrub también ayudan, pero tendrían un impacto en el rendimiento. Pero no conozco ningún hardware de servidor que realmente permita ajustar estos parámetros.
Supongo que no hay mucho que pueda hacer en el lado del sistema operativo, excepto terminar procesos sospechosos con un uso constante de CPU alta y fallas en la memoria caché.