1
Tubbs 3 天前 via Android
vLLM 部署确实很方便,用的什么设备部署的呢?
|
2
yangyaofei 3 天前 1
可以用 guided 参数让模型输出固定格式的内容 https://docs.vllm.ai/en/latest/usage/structured_outputs.html, 在加上两部输出(先输出标签格式随意, 输出内容用 LLM 再格式化为 json), 可以获得很好的效果, 当然 prompt 和模型够强够好一部也没问题.
还有, 我好奇为啥用 coder |
3
Donaldo 3 天前
同一张卡,同一个 CUDA 版本,vllm 我实测比 ollama 快几个 token/s 。
|
4
Livid MOD OP @yangyaofei 也试过 Llama 和 QwQ-32B-Preview
Llama 会在输入是中文内容的情况,依然给出英文结果。 QwQ 的输出结果大部分情况下太自由发挥了。 Qwen2.5-Coder 的结果是最稳定的。 Google 的 Gemini 2.0 效果也很好,但是免费额度和频率限制不太够用。 |
5
Livid MOD OP 另外一个考虑就是因为这里大部分的内容,估计和 Coder 的训练内容也是重合的。
|
6
Livid MOD OP |
7
scys 3 天前 1
|
8
scys 3 天前
好想 => 好像,感觉 Prompt 可以提供例子,可能会更加准确。我现在用的 Flux Prompt 构建器,提供例子会更加准确。仅作参考,不是 Prompt 达人。
|
10
musi 3 天前 via iPhone 1
除了标签之外 v2 有考虑使用 embedding 做语义化搜索帖子的功能吗
|
11
yangyaofei 2 天前 1
@Livid #4 哦, qwq llama 肯定是不行的, 前者是尽量 CoT 会输出很多中间过程, llama 个代都对中文支持很不好, 我想说的是比如 qwen2.5-instruct 这种非 coder 模型. 如果显存够的话, 65B 的 4bit 量化模型性能很不错的
生成原文没有的词挺正常的, 毕竟生成模型, 而且也不一定影响结果的正确, 想避免的话可以 prompt 加入用原文的词的设定, 想进一步控制的话, 可能性能就下降很多了(比如前面的 Guided 方式也可以实现) |