V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
hanguofu
V2EX  ›  奇思妙想

Stable Diffusion 可不可以应用在分布式的集群上?

  •  
  •   hanguofu · 2023-09-12 19:42:43 +08:00 via Android · 1361 次点击
    这是一个创建于 414 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有没有人做过类似的研究/尝试?对硬件设备有没有什么限制?
    2 条回复    2023-09-13 15:28:36 +08:00
    chesha1
        1
    chesha1  
       2023-09-13 11:05:11 +08:00
    1. 当然可以啊,Stable Diffusion 的原公司就是在一个 32 台 8 卡 A100 的集群上进行的训练

    2. 不过这个方面的公开资料很少,因为大规模 GPU 集群是很工业界的东西,发论文的人不多,不如算法论文多
    我也不是很了解这些,比如 google 的 pathway 就是相关工作,还有 OSDI/SOSP 上也有一些 MLsys 的论文
    如果你的意思是怎么使用,而不是怎么研究,我也不清楚,我财力有限,没用过多台机器

    3. 硬件限制没太懂,你是指什么样的限制呢?只要是服务器上有 GPU ,服务器之间用以太网/IB 连接,都能做,只是用不同的技术可能效率会差很多
    RVRGnXxwawP5kwKW
        2
    RVRGnXxwawP5kwKW  
       2023-09-13 15:28:36 +08:00 via iPhone
    大型 cnn 的分布式训练和部署已经很成熟了,这方面的论文每年 OSDI 都会有。工业界的方案早的有 mu li 的 parameter server ,近的有 Google 的 pathway 。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5427 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 01:18 · PVG 09:18 · LAX 18:18 · JFK 21:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.