L1 generalmente se usa como almacenamiento para instrucciones decodificadas, mientras que L2 es un caché general para un solo núcleo. Cuanto más bajo es el caché, menor es el tamaño y más rápido suele ser. Como regla general para los procesadores de PC:
Caché L1: acceso de ciclo de reloj 2-3
Caché L2: ~ 10 ciclos de acceso de reloj
Caché L3: ~ 20-30 acceso de ciclo de reloj
El diseño de la caché L1 debe ser para maximizar la tasa de aciertos (la probabilidad de que la dirección de instrucción deseada o la dirección de datos estén en la caché) mientras se mantiene la latencia de la caché lo más baja posible. Intel usa un caché L1 con una latencia de 3 ciclos. El caché L2 se comparte entre uno o más cachés L1 y, a menudo, es mucho, mucho más grande. Mientras que el caché L1 está diseñado para maximizar la tasa de aciertos, el caché L2 está diseñado para minimizar la penalización por falla (el retraso incurrido cuando ocurre una falla L1). Para los chips que tienen cachés L3, el propósito es específico para el diseño del chip. Para Intel, los cachés L3 aparecieron por primera vez en sistemas multiprocesador de 4 vías (procesadores Pentium 4 Xeon MP) en 2002. Los cachés L3 en este sentido redujeron en gran medida los retrasos en entornos de subprocesos múltiples y quitaron una carga del FSB. En el momento,
Cita obtenida aquí de la respuesta de "Pinhedd".