各位 V 友好,我刚接触 cuda 编程。现在可以实现利用单 cpu 和 gpu 来加速运算。 现在需要实现多 cpu 和 gpu 来进一步加速运算, 看网上例子,需要用到 openmpi, 还要开启它的 cuda 支持。 请问: 这条道路是否正确? 还有哪些需要注意的地方,cuda 代码的修改,或者配置啥的?