V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
VisionTheta
V2EX  ›  程序员

有搞深度学习的朋友吗,你们训练模型的时候都在干什么啊?

  •  
  •   VisionTheta · 2018-08-28 10:57:02 +08:00 · 9166 次点击
    这是一个创建于 2281 天前的主题,其中的信息可能已经有所发展或是发生改变。

    楼主最近在训(tiao)练(can)一个模型,因为训练量比较大,基本 3~4 天一个模型。虽然我知道,我盯着它看也不会起什么作用,但作为一个如果有快递,一天要刷新好几遍快递配送信息的人,模型基本也是半小时盯一次,尤其是这组超参比较管用、或者新实现了一个功能等。

    看在哪里训练了,如果在工位机上训练,基本显存占满了,机器开个 chrome 或者 vscode 也会比较卡。所以,对我来说,工位机这种半残废的状态,基本做不了其他的什么了。如果在服务器上训练,盯着的就是模型掉没掉,虽然卡多,但是排队用的人也多啊,一会儿不看,你模型掉了,别人就来训练了。

    V 友们在训练模型的时候都在同期做什么啊?我见过有研究新论文的,有划水的,写博客的,像我一样不断盯模型的。当然,我觉得一直盯模型,有一点好处,就是对走势把握的比较准,虽然现在也有early_stop,但是调超参过程中,多看一些曲线的走势还是能积累不少经验的。

    你们都在哪里训练自己的模型呢?服务器端你们有调度软件或者预约系统吗?当然,如果在大厂的话,机器多,估计也有集群管理软件。

    想听听你们的声音!

    37 条回复    2019-11-11 16:04:55 +08:00
    JeffKing
        1
    JeffKing  
       2018-08-28 11:44:51 +08:00 via iPhone
    划水 喝茶 吃饼干🍪
    yvanst
        2
    yvanst  
       2018-08-28 11:51:09 +08:00 via Android
    心安理得地玩手机
    diggerdu
        3
    diggerdu  
       2018-08-28 11:54:31 +08:00
    睡觉,看看 V2EX 扭腰时报 reddit/r/machinelearning
    delectate
        4
    delectate  
       2018-08-28 12:15:45 +08:00
    撸铁。
    udumbara
        5
    udumbara  
       2018-08-28 12:35:29 +08:00 via Android
    写部署代码
    frinstioAKL
        6
    frinstioAKL  
       2018-08-28 12:44:35 +08:00
    虽然计划好利用这个空闲去读论文,学学代码什么的,但是总忍不住隔三差五去看看 acc 和 loss 曲线,心里总是很挂念,忍不住。
    Weny
        7
    Weny  
       2018-08-28 12:46:25 +08:00 via iPhone   ❤️ 12
    送外卖啊 还能补贴家用
    fl2d
        8
    fl2d  
       2018-08-28 12:51:42 +08:00
    主显示器上,一个窗口是各种曲线,一个窗口哗哗的打印各种实时数据。以此证明我在干活。
    其他显示器上,想干嘛干嘛。
    thonatos
        9
    thonatos  
       2018-08-28 13:00:28 +08:00
    easylee
        10
    easylee  
       2018-08-28 13:03:31 +08:00 via Android
    建议分布式运算。
    ZRS
        11
    ZRS  
       2018-08-28 13:13:50 +08:00
    当然是摸鱼啊
    vipfts
        12
    vipfts  
       2018-08-28 13:19:32 +08:00
    女朋友
    janxin
        13
    janxin  
       2018-08-28 13:21:10 +08:00 via iPad
    VisionTheta
        14
    VisionTheta  
    OP
       2018-08-28 13:22:51 +08:00   ❤️ 1
    @easylee 现在是三台机都在算,但是分布式会比单机多卡这种降低准确率,所以如果刷榜的话,我觉得还是不用分布式好。

    @fl2d 我一般不把终端放在窗口最上方,怕误触个什么组合键,把训练打断。

    @frinstioAKL 哈哈哈,我是每 30 分钟 summary 一次,比你看的还勤。

    @udumbara 你是说写其他机器 /超参训练过程的部署代码,还是说写测试阶段的代码,亦或是模型部署,用在产品上。。

    @Weny 还能上班去送外卖了?羡慕。
    frinstioAKL
        15
    frinstioAKL  
       2018-08-28 13:27:55 +08:00   ❤️ 1
    @VisionTheta 我是把主机的 ssh 做了个端口转发,然后在随便一个大显示器主机上挂着主机的 tensorboard 曲线,然后。。。过一会忍不住就想去瞄一下曲线
    northisland
        16
    northisland  
       2018-08-28 16:37:25 +08:00
    写业务

    上面能给出跑起训练的空闲,我都万分感谢了
    UN2758
        17
    UN2758  
       2018-08-28 18:02:16 +08:00
    当然是扣 jio,扣鼻屎啦 XD
    mogami18
        18
    mogami18  
       2018-08-28 19:25:03 +08:00
    当然是不断优化代码啦
    VisionTheta
        19
    VisionTheta  
    OP
       2018-08-28 19:31:16 +08:00
    @mogami18 是代码层面的还是什么层面?如果是从开源项目上,我觉得没有什么可以改得了啊。。如果是超参层面,一般我这组超参调完之前,是不会想新的思路的,有了思路也没卡练。

    @frinstioAKL 我也开了 board,但一般都等不及刷新,去控制台看,哈哈

    @janxin 我改 tensorflow 代码的时候也要从头编译,工位机编译一次要半个小时。
    mogami18
        20
    mogami18  
       2018-08-28 19:35:13 +08:00
    @VisionTheta 我之前是做过一点 parameter server engine 研发,所以我个人只能从性能上优化系统本身实现,而优化不了算法和参数,哈哈哈
    sangleft
        21
    sangleft  
       2018-08-28 19:45:16 +08:00
    学生表示会刷 leetcode 和论坛。。
    icylogic
        22
    icylogic  
       2018-08-28 23:02:55 +08:00
    我们服务器够每个人用,所以不用排队。。。当然也可能你们网络本身就需要很多服务器,我们网络小,一人一块卡就够;
    我是在服务器上开 vscode/nsight,X11 回来,只要加了 -C,同时开四五个基本和在本地用没太大差别;
    这行工位上的台式机基本就是用来开 shell 和浏览器的。我工位上四个显示屏,1 号看浏览器,2 号开 terminator 切分几个 shell,3 号竖屏看代码和文档,4 号是个 windows 笔记本用来处理些别的事;
    写其他代码、看书 paper 文档、发呆、和同事聊些工作上的事……
    WeberXie
        23
    WeberXie  
       2018-08-28 23:18:13 +08:00
    @mogami18 兄弟在哪个厂,想和你交流下
    mogami18
        24
    mogami18  
       2018-08-28 23:52:04 +08:00
    @WeberXie 上面 ps 开发的皮毛都是我在本科念书的时候学的,我们当时本来是想借鉴 NSDI 2017 里面 TuX2 的这个系统,也搞一个用 distributed graph mining system 来做得比 ps 更快更好的系统,可惜后来系统胎死腹中,老板不支持,说没有创新性,发不了好 paper。我现在也就能吹吹我作为 co-author 发表的 eurosys 和 tpds 的 paper 了。。。
    mogami18
        25
    mogami18  
       2018-08-28 23:55:57 +08:00
    @WeberXie 另外我现在做的很简单,在厂里用 linux C++每天撸撸倒排索引引擎(extremely trivial 的那种),目前在考外语,准备找机会年后重回学校找个有 funding 的老板资助我读书呢
    mogami18
        26
    mogami18  
       2018-08-28 23:57:16 +08:00
    @WeberXie[email protected] 可以 email 相互认识下
    closedevice
        27
    closedevice  
       2018-08-28 23:57:18 +08:00
    和学妹聊天啊
    t6attack
        28
    t6attack  
       2018-08-29 00:07:33 +08:00
    编译中~ 扫描中~ 渲染中~ 备份中~ 导入中~ 爬取中~ 训练中~。。。
    悠闲的计算机工作者
    dangyuluo
        29
    dangyuluo  
       2018-08-29 00:27:17 +08:00
    你应该做一个 Telegram 通知,这样就不用随时盯着了。好使
    mogami18
        30
    mogami18  
       2018-08-29 00:30:24 +08:00
    @dangyuluo 我读 phd 的同学,做了一个微信 bot,train 完直接发微信消息,lol
    jinyu121
        31
    jinyu121  
       2018-08-29 07:43:13 +08:00 via iPhone
    有时候自己的程序非常奇怪,你只要盯着它,它就给你跑得好好的。你睡个午觉、吃个饭、甚至上个厕所,反正只要有一会儿不盯着,它就死给你看。

    其他情况一般是泡在 github 上。

    至于通知……没有 tg 的情况下可以用 aws 的 sns 短信通知,很简单。缺点是比较贵,大概 3 毛一条短信。楼上能把 tg 通知的代码共享一下咩?
    VisionTheta
        32
    VisionTheta  
    OP
       2018-08-29 09:09:12 +08:00
    @mogami18 是做厂里自己的引擎?你做的是单机多卡的 ps server ?这种一般是放在 CPU 上吧? 还是分布式 ps server ?跟 tensorflow 的效率比过吗? 单机多卡的 tf, 我发现用的卡越多(当然最多 8 张),启动过程越慢,现在我用 8 卡,启动一次甚至都要 10 分钟。我看了一下应该不是磁盘的锅,反倒觉得有可能是 tf 的 coordinator 的问题。

    @sangleft 哈哈,现在 leetcode 刷了多少道题了?自己刷还是跟别人一起组队刷啊?

    @icylogic 四个显示器有点壕,我是一个显示器,外加一台自己带的设备。以前工位装过两个显示器,但是后来觉得,无论看哪个地方,都有显示器的光包围着,时间长了眼睛受不了,就拆了一个。你四个显示器是怎么装的啊?上面两个,下面两个?

    @dangyuluo 我用 iOS 上的一个叫`Bark`的 app, 也可以推送模型的训练效果,还可以推送哪个模型掉了, 不过差不多都是 get 或者 post 一个请求。但是这种我只传了一个当时的准确率,感觉 board 的话,还可以把趋势图拟合出来,还是喜欢 board 多一些。

    @jinyu121 我的模型要三四天,我发现是分白天和晚上。如果晚上涨了很多,你白天高高兴兴的去上班,结果一天都在抖。如果晚上没涨,你打算去换一组参数,结果一直涨个不停,不给你停的机会。。
    mogami18
        33
    mogami18  
       2018-08-29 13:19:19 +08:00
    @VisionTheta 厂里可没有专攻系统方向的博士做这些,所以厂里用的都是开源的系统。上面那些都是我读本科的时候,跟着当时带我的 phd 师兄们一起做的。至于 ps 系统,对比的主要是 petuum parameter server 的开源版本 bosen 等系统。
    mogami18
        34
    mogami18  
       2018-08-29 13:20:51 +08:00
    @VisionTheta 楼主可以看看 VLDB 2018 FlexPS 这篇 paper,有开源实现的
    icylogic
        35
    icylogic  
       2018-08-30 08:36:29 +08:00 via iPhone
    @VisionTheta 从左到右排开啊,半环绕的效果。。。
    反正公司显示器在库房放着也是吃灰。不如拿来用。。
    icylogic
        36
    icylogic  
       2018-08-30 08:37:55 +08:00 via iPhone
    @VisionTheta 长时间看显示器这个事,本来坐半个小时就应该起来活动一下,打个水上个厕所之类的。
    achersion
        37
    achersion  
       2019-11-11 16:04:55 +08:00
    当然是不断的划水, 看小说,刷副本了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4015 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 05:14 · PVG 13:14 · LAX 21:14 · JFK 00:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.