Como dijo Brian, los núcleos Xeon Phi no son en absoluto comparables a los de CUDA. El problema con la Phi es que se encuentra entre dos caballos.
Si está haciendo cálculos de coma flotante altamente paralelos, NVIDIA le proporcionará algo así como 3 veces el rendimiento a un cuarto del precio. Para una precisión doble, la brecha es menor, pero NVIDIA sigue siendo un 20% más barata por el mismo rendimiento.
Si su problema es muy difícil de paralelizar, Phi no lo ayudará en absoluto y, en cambio, algo como un Intel Xeon le brindará el mejor rendimiento.
El punto óptimo para el Phi es entonces algo muy paralelo, pero divergente, es decir, cada hilo tiene que hacer algo diferente. Un ejemplo de esto serían las simulaciones de Monte Carlo. Por ejemplo, se usan en simulaciones de tratamientos de radioterapia, donde las GPU solo dan una pequeña (~ 2x) aceleración sobre una CPU estándar.
Intel también está tratando de vender el Xeon Phi por el hecho de que solo necesita reescribir su código mínimamente. Sin embargo, para cualquier cosa que no sea trivial paralelizar, el trabajo se convierte en el mismo que para una GPU.