¡Bienvenido al mundo del punto flotante desnormalizado ! ¡Pueden causar estragos en el rendimiento!
Los números denormales (o subnormales) son una especie de truco para obtener algunos valores adicionales muy cercanos a cero de la representación de coma flotante. Las operaciones en punto flotante desnormalizado pueden ser decenas a cientos de veces más lentas que en punto flotante normalizado. Esto se debe a que muchos procesadores no pueden manejarlos directamente y deben atraparlos y resolverlos usando microcódigo.
Si imprime los números después de 10,000 iteraciones, verá que han convergido a diferentes valores dependiendo de si se usa 0
o no 0.1
.
Aquí está el código de prueba compilado en x64:
int main() {
double start = omp_get_wtime();
const float x[16]={1.1,1.2,1.3,1.4,1.5,1.6,1.7,1.8,1.9,2.0,2.1,2.2,2.3,2.4,2.5,2.6};
const float z[16]={1.123,1.234,1.345,156.467,1.578,1.689,1.790,1.812,1.923,2.034,2.145,2.256,2.367,2.478,2.589,2.690};
float y[16];
for(int i=0;i<16;i++)
{
y[i]=x[i];
}
for(int j=0;j<9000000;j++)
{
for(int i=0;i<16;i++)
{
y[i]*=x[i];
y[i]/=z[i];
#ifdef FLOATING
y[i]=y[i]+0.1f;
y[i]=y[i]-0.1f;
#else
y[i]=y[i]+0;
y[i]=y[i]-0;
#endif
if (j > 10000)
cout << y[i] << " ";
}
if (j > 10000)
cout << endl;
}
double end = omp_get_wtime();
cout << end - start << endl;
system("pause");
return 0;
}
Salida:
#define FLOATING
1.78814e-007 1.3411e-007 1.04308e-007 0 7.45058e-008 6.70552e-008 6.70552e-008 5.58794e-007 3.05474e-007 2.16067e-007 1.71363e-007 1.49012e-007 1.2666e-007 1.11759e-007 1.04308e-007 1.04308e-007
1.78814e-007 1.3411e-007 1.04308e-007 0 7.45058e-008 6.70552e-008 6.70552e-008 5.58794e-007 3.05474e-007 2.16067e-007 1.71363e-007 1.49012e-007 1.2666e-007 1.11759e-007 1.04308e-007 1.04308e-007
//#define FLOATING
6.30584e-044 3.92364e-044 3.08286e-044 0 1.82169e-044 1.54143e-044 2.10195e-044 2.46842e-029 7.56701e-044 4.06377e-044 3.92364e-044 3.22299e-044 3.08286e-044 2.66247e-044 2.66247e-044 2.24208e-044
6.30584e-044 3.92364e-044 3.08286e-044 0 1.82169e-044 1.54143e-044 2.10195e-044 2.45208e-029 7.56701e-044 4.06377e-044 3.92364e-044 3.22299e-044 3.08286e-044 2.66247e-044 2.66247e-044 2.24208e-044
Observe cómo en la segunda ejecución los números están muy cerca de cero.
Los números desnormalizados son generalmente raros y, por lo tanto, la mayoría de los procesadores no intentan manejarlos de manera eficiente.
Para demostrar que esto tiene todo que ver con los números desnormalizados, si volcamos los denormals a cero agregando esto al comienzo del código:
_MM_SET_FLUSH_ZERO_MODE(_MM_FLUSH_ZERO_ON);
Entonces la versión con 0
ya no es 10 veces más lenta y en realidad se vuelve más rápida. (Esto requiere que el código se compile con SSE habilitado).
Esto significa que, en lugar de utilizar estos extraños valores de precisión casi inferior a cero, simplemente redondeamos a cero.
Tiempos: Core i7 920 @ 3.5 GHz:
// Don't flush denormals to zero.
0.1f: 0.564067
0 : 26.7669
// Flush denormals to zero.
0.1f: 0.587117
0 : 0.341406
Al final, esto realmente no tiene nada que ver con si es un entero o un punto flotante. El 0
o 0.1f
se convierte / almacena en un registro fuera de ambos bucles. Entonces eso no tiene ningún efecto en el rendimiento.