这是一个创建于 696 天前的主题,其中的信息可能已经有所发展或是发生改变。
想到的几种方式
- 本地跑
- 用 replicate 的 api
- 用 aws 或微软的 api
5 条回复 • 2023-07-22 09:29:50 +08:00
 |
|
1
jangit 2023-07-19 19:39:06 +08:00
线上部署第一种是不大可能的,还是要等 gptq 支持,不然现在 7b 以上消费级显卡都不够跑的
|
 |
|
2
captray 2023-07-20 17:32:22 +08:00
|
 |
|
3
livc 2023-07-20 17:54:56 +08:00
|
 |
|
4
GL8885 2023-07-21 11:01:39 +08:00 via Android
本地应该是能跑的,量化过的模型可以用 CPU 加内存跑,一个好点的主板最多可以插 192G 内存,主要是这样推理很慢。
|
 |
|
5
AIGod 2023-07-22 09:29:50 +08:00
用 GPU 服务器部署呢,如 V100 的服务器
|