v2 更关注的似乎是编程能力。
我现在倒更关心文本生成能力,能不能帮我水论文,标准和专利等等的。。。
不知道 LLM 测试中有没有项目是专门对文字生成进行评价的。
目前个人使用模型写文章的一些经验和想法:
- GPT4.5 和 GEMINI 整体生成质量比国内模型好一些,外国佬语料质量还是比较高。
- grok 没用过,不知道怎么充钱。
- 试了试 deepseek 新更新的 v3 ,感觉跑不过 gemini2.0Pro
- 输出融合感觉对生成质量提升明显,混合不同模型的系统指令\思考过程\回答结果,然后用模型再整理,一般来说质量都会提升,几乎不会下降。