V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zhiqiang
V2EX  ›  Ubuntu

用来计算神经网络的组装机器的 1080ti 显卡用一阵就掉了

  •  
  •   zhiqiang · 2017-12-18 09:00:20 +08:00 · 9601 次点击
    这是一个创建于 2525 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我们自己组装机器,插了 3 块 1080ti 显卡,用来计算深度神经网络,性能还不错,基本跟一台用 P100 的服务器计算性能差不多。

    可是有个烦心事情,用一阵之后,显卡就会少,比如 nvidia-smi 只能看到两块显卡,另外一块显卡就不见了。重启机器,显卡会回来。

    机器用的 i9 7900x CPU,128G 内存。操作系统是 ubuntu 16.04 。

    有人碰到类似情况吗,怎么解决?

    第 1 条附言  ·  2017-12-18 11:07:11 +08:00
    电源是 1600W 的,型号是:振华( SUPER FLOWER ) 额定 1600W LEADEX T。从功率上看是足够的。
    33 条回复    2017-12-19 14:51:32 +08:00
    7654
        1
    7654  
       2017-12-18 09:04:39 +08:00
    电源功率如何,有没有虚表
    DreamCMS
        2
    DreamCMS  
       2017-12-18 09:05:49 +08:00
    电源问题,显卡独立供电。
    dcll222
        3
    dcll222  
       2017-12-18 09:24:25 +08:00
    7900x 和三张 1080ti 大概得一千瓦供电才能长时间稳定运行
    lonelygo
        4
    lonelygo  
       2017-12-18 09:30:55 +08:00
    1080Ti,标的功率 275W,你还要留点富裕;
    跑训练,估计硬盘也不少于两块,CPU 也不太差,这些都要单独用电;
    建议电源不低于 1500W,最好直接上 2KW。
    8355
        5
    8355  
       2017-12-18 09:43:19 +08:00
    我也觉得是电源的问题. 买个好点的电源吧. 高端海韵 全汉 海盗船 EVGA 都可以.
    wecan
        6
    wecan  
       2017-12-18 09:54:31 +08:00 via Android
    长期运行的话 1600w 要是要的。一般就是电源和散热
    realpg
        7
    realpg  
       2017-12-18 10:20:10 +08:00
    有动手能力么 如果有 淘宝买块 30 的神电源 买三个显卡 pin 带长线接头 自己焊上接上 美滋滋
    挖矿机我就是这么干的
    mfergg
        8
    mfergg  
       2017-12-18 10:44:16 +08:00
    这电脑要是用来玩游戏就爽了
    turan12
        9
    turan12  
       2017-12-18 10:53:36 +08:00
    建议上双电源。一个电源专门为显卡供电,另一个电源为 CPU 和板卡供电。
    zhiqiang
        10
    zhiqiang  
    OP
       2017-12-18 11:06:22 +08:00
    楼上各位,我们的电源是 1600W 的,型号是:振华( SUPER FLOWER ) 额定 1600W LEADEX T。按道理应该足够了的。
    zhiqiang
        11
    zhiqiang  
    OP
       2017-12-18 11:07:47 +08:00
    @turan12 电源功率足够,也要分开两个电源吗?
    z5864703
        12
    z5864703  
       2017-12-18 11:13:52 +08:00
    @zhiqiang 要看 12V 供电
    focusheart
        13
    focusheart  
       2017-12-18 11:16:58 +08:00
    请教一下,主板用的是哪一款呀?
    zhiqiang
        14
    zhiqiang  
    OP
       2017-12-18 11:25:20 +08:00
    @focusheart 华硕( ASUS ) PRIME X299-DELUXE
    Thiece
        15
    Thiece  
       2017-12-18 11:26:07 +08:00
    @zhiqiang 首先,如果你的显卡是公版的 250W,如果是非公版额定功率大概在 265W 左右,但是 NVIDIA 会有一个峰值功率墙,一般是 20%,换算下来就是 318W。你有 3 块也就是 954W。7900X 的额定功率是 140W,我不知道你有没有超频,如果超频了,CPU 的功耗会提的比较多,我就当你超频了 200W 吧。振华这块电源 12V 输出是 133.3A ,也就是 1600W 是完全没问题。那你需要注意一下是不是显卡散热的问题了,10 系的温度墙,控制温度是 83°C,上限温度是 92°C。不仅仅的 GPU 的核心温度需要注意,显存的散热和 VRM 散热。公版卡 VRM 散热是没有覆盖到的。解决方案也是有的,上水冷。
    Thiece
        16
    Thiece  
       2017-12-18 11:29:31 +08:00
    X299-DELUXE 没有额外的 PCIE 供电,不排除是这方面的原因
    daydaysay
        17
    daydaysay  
       2017-12-18 11:36:16 +08:00
    和楼主出现一样的情况,但不是跑神经网络。 应该不是电源问题。
    rogerchen
        18
    rogerchen  
       2017-12-18 11:39:08 +08:00
    不太可能是电源的问题。。。很有可能是 BIOS 的问题,FYI https://devtalk.nvidia.com/default/topic/1010960/cuda-missing-gpu-/
    cevincheung
        19
    cevincheung  
       2017-12-18 11:47:39 +08:00   ❤️ 1
    人工智能自动卸载了一块显卡当备用。
    zhiqiang
        20
    zhiqiang  
    OP
       2017-12-18 12:01:42 +08:00
    @Thiece 现在三块 GPU 的供电都是直接连的电源。你提到的主板额外 PCIE 供电,具体是指什么?
    focusheart
        21
    focusheart  
       2017-12-18 12:13:10 +08:00
    @zhiqiang 谢谢~~
    turan12
        22
    turan12  
       2017-12-18 14:10:56 +08:00
    @zhiqiang 其实就是 @z5864703 这个意思,看 12v 是多少 A 的,就可以算出功率。另外靠谱的 80plus 2000w 电源价格可不便宜,还不如分两个。
    em84
        23
    em84  
       2017-12-18 14:17:17 +08:00
    这电脑用来刷贴吧肯定很爽系列
    BadMan
        24
    BadMan  
       2017-12-18 14:45:48 +08:00
    我们实验室的服务器有时候也会这样,带了 4 块 Titan X,后来让学院管理员弄了一下就没出现过了
    realpg
        25
    realpg  
       2017-12-18 14:51:52 +08:00
    @zhiqiang
    换个主板看看吧……
    这主板压根就不是挖矿类场合设计的(计算基本就是跟挖矿同场景)
    十有八九供电问题 这就是个超频 /游戏主板

    做你这种需求的 弄专业点的挖矿板比较好 至少主板得带 至少一个大 4pin 甚至 8pin PCI-E 辅助供电 然后最好主电源用小点的就行,再弄个专门 12V 电源供显卡,我之前说的 30 元的艾默生 12V 65A 神电源就可以,自己动手简单改造一下即可
    gpw1987
        26
    gpw1987  
       2017-12-18 15:55:51 +08:00
    高级呀,神经网络
    zhiqiang
        27
    zhiqiang  
    OP
       2017-12-19 08:47:43 +08:00
    @realpg 能推荐一个主板型号吗?神经网络 GPU 显存和数据传输率都很大,和挖矿还是有显著区别的。
    zhiqiang
        28
    zhiqiang  
    OP
       2017-12-19 08:49:02 +08:00
    @turan12 振华应该没啥问题吧,这电源将近 3000 块钱。
    turan12
        29
    turan12  
       2017-12-19 09:36:02 +08:00
    @zhiqiang 一个字,米!:p
    realpg
        30
    realpg  
       2017-12-19 11:51:53 +08:00   ❤️ 1
    @zhiqiang #27
    我基本不碰“高端”游戏主板,直接就能用的没推荐

    我们这数据中心一堆计算类托管的业务,都不是这么玩的,都是 DIY,不放标准机柜

    如果你 DIY 能力强就别装机箱了 类似挖矿那么的打个小架子 显卡固定架子上 然后用 PCI-E 延长线
    找好 PCI-E 的电源针脚定义,直接从外部 12V 在排线对应针脚输入个 12V 电进去

    建议买个我之前说的 30 元的艾默生神器电源,12V65A 的 改一下启动,给显卡辅助供电,再从主电源的大 4PIN 分出一个 12V 线 直接接到 pci-e 延长线的供电 算明白,一个 PCI-E 给 75W 供电,机械硬盘一个算 20W (考虑启动电流),CPU 按照 TDP 算,主板算 20W,主电源把这些加起来再加个 100 瓦余量就可以了,如果有额外的大散热风扇,直接算好风扇电流

    然后三块显卡的 8pin 用 12V65A 那个神器带就够了

    实际上,你的这个业务跟挖矿和计算区别不大,大量计算在显卡自己,cpu 调度明显比挖矿多一点,也不是助理,跟 cpu 的交换少得多,否则就不是用你这种单 CPU 的方案了

    其实,最好还是用服务器挂多显卡,本身 SMP 系统支持的 PCI-E 通道数就多,然后用延长线弄出来挂在架子上,很多平台可以轻松 6 卡 PCI-E 8X 模式

    这种超大功率的 PC 玩法,还是自己会设计会执行比较好
    wecan
        31
    wecan  
       2017-12-19 14:34:04 +08:00 via Android
    @Thiece pcie 供电和主板还有关系了?
    Thiece
        32
    Thiece  
       2017-12-19 14:48:55 +08:00
    @wecan
    @zhiqiang
    PCIE 插槽会向其设备提供 75W 的供电,一般这个供电是由 24pin 提供,某些主板会提供额外的 PCIE 供电接口比如微星的 XPOWER 系列。显卡在使用过程中的供电有一部分也是由 PCIE 提供,具体多少看设计者了。
    参考文章 http://3c.3dmgame.com/show-14-3850-1.html
    Thiece
        33
    Thiece  
       2017-12-19 14:51:32 +08:00
    @zhiqiang 另外,你的电源 12V 输出是 133.3A ,除非出现品控问题,不然这块电源完全能带动整个平台。你可以留意一下散热问题。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2830 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 05:43 · PVG 13:43 · LAX 21:43 · JFK 00:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.