Las respuestas anteriores a esta pregunta han cubierto la mayoría de los puntos destacados, pero quiero agregar un comentario con respecto a esto:
¿MKL tiene la ventaja para algunas tareas?
El equipo de MKL está en una posición única para conocer los futuros conjuntos de instrucciones de Intel y sus implementaciones en procesadores específicos. Además, tienen acceso a simuladores de procesador patentados y hardware de preproducción que nadie fuera de Intel puede usar. Por lo tanto, MKL tiene la ventaja con respecto al grado de conocimiento sobre productos futuros y cuándo obtienen este conocimiento. Por lo tanto, no debería ser demasiado sorprendente si producen mejores implementaciones de BLAS que cualquier otra persona, al menos al principio de la vida útil de un producto con nuevas características.
Por otro lado, Intel ha sido bastante abierto sobre el conjunto de instrucciones AVX-512 y ha proporcionado el Emulador de desarrollo de software Intel® (SDE) que permite a los desarrolladores emular instrucciones AVX-512 en procesadores que no los admiten de forma nativa. Debido a esto, no será demasiado sorprendente si las implementaciones de código abierto de alta calidad de BLAS están disponibles para los procesadores Intel que admiten AVX-512 al principio de la vida útil de estos productos.
Por supuesto, cuánta diferencia hace tener información detallada sobre un procesador en particular frente a los fundamentos de los algoritmos de álgebra lineal densa no se resuelve completamente. La siguiente cita aborda este problema mejor de lo que puedo:
En teoría, no hay diferencia entre teoría y práctica. Pero, en la práctica, la hay.
Divulgación completa: trabajo para Intel.