这是一个创建于 77 天前的主题,其中的信息可能已经有所发展或是发生改变。
有大规模集群的运维( 1200 台服务器)和完整的云化改造到 CI/CD 经验,写过 Operator
AI 相关的做过 argoworkflow+ray 做异构编排,kubeflow 和 GPU 的调度也了解( DRA )
base 江浙沪或者远程都可以
VX:RkxNMjEwCg==
3 条回复 • 2025-11-28 15:08:52 +08:00
 |
|
1
fourhu 2025 年 11 月 28 日
这经验找 ai infra 的应该很好找吧
|
 |
|
3
tommydong 2025 年 11 月 28 日
这个 1200 台服务器包括多少台 gpu ?
|