1
msg7086 2015-10-16 13:23:19 +08:00 1
https://software.intel.com/sites/landingpage/IntrinsicsGuide/#techs=AVX,AVX2&cats=Arithmetic&expand=73,112
就拿现在主流的 AVX 系指令集来说。 32 位整数相加 __m256i _mm256_add_epi32 (__m256i a, __m256i b) Architecture Latency Throughput Haswell 1 0.5 32 位浮点相加 __m256 _mm256_add_ps (__m256 a, __m256 b) Architecture Latency Throughput Haswell 3 1 延迟是 3 倍,吞吐量占用是 2 倍。(吞吐量占用是越小越快) |