线上部署 llama 2 的最佳方式是什么？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 861 天前的主题，其中的信息可能已经有所发展或是发生改变。

想到的几种方式

5 条回复 • 2023-07-22 09:29:50 +08:00

jangit

2023-07-19 19:39:06 +08:00

线上部署第一种是不大可能的，还是要等 gptq 支持，不然现在 7b 以上消费级显卡都不够跑的

captray

2023-07-20 17:32:22 +08:00

livc

2023-07-20 17:54:56 +08:00

@captray #2 感谢有预估需要多少钱吗

GL8885

2023-07-21 11:01:39 +08:00 via Android

本地应该是能跑的，量化过的模型可以用 CPU 加内存跑，一个好点的主板最多可以插 192G 内存，主要是这样推理很慢。

AIGod

2023-07-22 09:29:50 +08:00

用 GPU 服务器部署呢，如 V100 的服务器