V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
speedcell4
V2EX  ›  Linux

Linux 下的用户任务队列

  •  
  •   speedcell4 · 2018-02-16 15:35:32 +08:00 · 5422 次点击
    这是一个创建于 2465 天前的主题,其中的信息可能已经有所发展或是发生改变。

    研究室只有 2 台服务器,每台上面 8 块显卡。每天都很多人要跑实验,经常出现抢显卡打架的情况。

    是否有现成的工具可以满足下面的需求呢:

    1. 每个用户登陆到服务器之后,提交跑实验的命令,而不是直接自己开始跑。
    2. 服务器会自动在这 2 台服务器上调度任务:
    3. 如果当前没有 GPU 可用,队列里的任务就都等着
    4. 如果有 GPU 空出来了,队首的任务就开始跑
    5. 并且能做到公平分配 GPU 运行时间给每个用户,比如刚跑了一个耗时很长的实验的用户在一段时间内不会再让他跑
    13 条回复    2018-02-19 07:07:53 +08:00
    laqow
        1
    laqow  
       2018-02-16 15:57:29 +08:00 via Android
    自己以前实验室没这么紧张,没具体弄过。不知道你们做啥实验,生物信息的话可以拿 autodock,zdock 之类的关键字搜搜日本大学或国内大学的公共实验平台,可以看他们的管理方法。另外一些商业软件运算自带这种系统的。
    churchmice
        2
    churchmice  
       2018-02-16 16:02:59 +08:00 via Android
    sungrid
    razrlele
        3
    razrlele  
       2018-02-16 17:56:04 +08:00 via iPhone
    wannafly
        4
    wannafly  
       2018-02-16 18:00:11 +08:00
    最传统的 IBM 的 LSF 应该就可以, 使用方法就是你描述的那样.
    hackpro
        5
    hackpro  
       2018-02-16 18:31:18 +08:00 via iPhone
    好问题,关注,组里 DL 大户太狠了……
    swulling
        6
    swulling  
       2018-02-16 21:49:28 +08:00 via iPhone   ❤️ 1
    自己写一个吧,周末应该可以写一个能用的
    defunct9
        7
    defunct9  
       2018-02-16 21:54:02 +08:00 via iPhone
    挖矿很不错啊不错👍
    xuanyuanaosheng
        8
    xuanyuanaosheng  
       2018-02-16 23:01:37 +08:00 via Android
    slurm 或者 lsf,这些是传统的调度系统,也可以研究下 singlarity,这个是类似于 docker 的
    omph
        9
    omph  
       2018-02-16 23:35:50 +08:00
    用 Hadoop Yarn 搭建一个资源管理平台
    msg7086
        10
    msg7086  
       2018-02-17 00:52:31 +08:00
    前几天刚刚写过一个类似的,不过没有普遍性(也不像你说的那样能动态调度或者有用户管理)。

    不过从头写一个不麻烦 XD
    luoshuangfw
        11
    luoshuangfw  
       2018-02-17 04:24:19 +08:00 via Android
    楼主的需求正是传统意义上的集群调度系统。可以从 PBS 开始了解,开源的闭源的都有,闭源代表如 2 楼提到的 SunGridEngine
    speedcell4
        12
    speedcell4  
    OP
       2018-02-17 19:12:21 +08:00
    @msg7086 可以开源一下作为参考么,多谢多谢~
    msg7086
        13
    msg7086  
       2018-02-19 07:07:53 +08:00
    @speedcell4 https://g.x86.men/root/KumaTama

    请不要将 Repo 地址或内容转发到其他网站上。一周后我会关掉访问权限。
    这套东西对其他人来说没有直接运行的价值,所以我觉得最多就是看看代码,抄抄结构就行了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   908 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 21:51 · PVG 05:51 · LAX 13:51 · JFK 16:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.