nakroy 最近的时间轴更新
nakroy

nakroy

V2EX 第 680857 号会员,加入于 2024-03-18 22:46:42 +08:00
针对 AI 场景的分布式存储
Kubernetes  •  nakroy  •  56 天前  •  最后回复来自 cybort
2
AI 大模型的分布式存储方案
程序员  •  nakroy  •  56 天前  •  最后回复来自 tap91624
25
本地裸金属集群的 LoadBalancer 方案
Kubernetes  •  nakroy  •  67 天前  •  最后回复来自 nakroy
14
本地集群的 LoadBalancer 方案
云计算  •  nakroy  •  67 天前  •  最后回复来自 nakroy
5
请教各位大佬,有没有合适的文档管理系统推荐
程序员  •  nakroy  •  86 天前  •  最后回复来自 nakroy
21
nakroy 最近回复了
57 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@mightybruce 好的兄弟,我去看看
57 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@mightybruce 我现在有 4 台 910B 的机器做测试,不纠结分布式存储那直接用本地为每一个模型分片存储确实成本最低。因为训练场景不多,主要还是推理场景。但是华为的人推的方案就有提到搭配他们的存储产品,所以不知道和传统的分布式存储有啥区别
57 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@mhycy 好的,了解了。那看来对于集群场景,使用专门的存储节点确实不是必须的
57 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@mightybruce 所以实际模型权重一直保留在内存里,需要的时候直接加载到 GPU 上?这里的内存是指存储节点的内存,而不是计算节点的内存,例如 GPU 节点能直接读取存储节点内存上的模型参数加载到 GPU 上,而不是先加载到 GPU 节点的内存上,然后再从 GPU 节点的内存上再加载到 GPU 节点的 GPU 上?
57 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@mightybruce IB 和 RDMA 技术有过了解,英伟达就有专门的配套用 IB 交换机的网络方案,但是一般的客户根本玩不起,而且我这里根本没说每次加载都从磁盘加载,而是考虑到 GPU 节点首次需要使用存储的模型权重或者数据集时可能的读写性能瓶颈,如果你一次全部把所有模型所有数据全加载到内存上一直用,也不用导出到磁盘作存储,那你无敌了
57 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@sampeng 就是传统的分布式存储无法满足大模型场景的读写性能,应该有专门针对大模型场景 I/O 优化的硬件软件方案
57 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@paopjian 因为很多情况下,机器可能需要加载多个模型而不只是一个模型,或者如果单个模型非常大,假设你要使用多个机器去加载,占用的存储空间还是很大的,每个节点都为每个模型备份一次,就显得比较繁琐。当然我这里还没讨论到千卡万卡规模的集群,我认为这种级别的集群也是使用分布式存储的,只是因为是商业方案不会公开这些架构细节
57 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@paopjian 也就是直接把模型加载到存储节点的内存,然后让其他节点通过光纤直接读存储节点内存的数据?
57 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@fcten 考虑到同步的问题,例如同时用多个 GPU 节点做微调和训练,从集中的存储系统读取和存储而非每个节点都存储 checkpoint 副本,如果数据集很大,也不会考虑每个节点都存这个数据集
57 天前
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@zhlxsh 存储系统读写性能大概要多高才行呢?
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2768 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 14:27 · PVG 22:27 · LAX 06:27 · JFK 09:27
Developed with CodeLauncher
♥ Do have faith in what you're doing.