syaoranex's recent timeline updates

syaoranex

V2EX member #382173, joined on 2019-02-05 21:33:20 +08:00

syaoranex 提问技术话题好玩工作信息交易信息城市相关

Per syaoranex's settings, the topics list is hidden

Deals info, including closed deals, is not hidden

syaoranex's recent replies

Jan 12

Replied to a topic by lemoncoconut › 程序员 › 老黄给的免费 LLM API 用来做网页翻译用着很爽

NIM API 是有总额度限制的吧，用完就没了。还是说现在已经改了？

Apr 6, 2025

Replied to a topic by kisshere › 程序员 › 有没有免费的 OCR API？自己服务器能部署的开源软件也行

如果只是需要文字 OCR ，用微信的就行。链接楼上已经给了。
如果需要多模态大模型来 OCR （例如一些表格，手写文字），那智谱的 GLM-4V-FLASH 是免费的，最大并发 10 ，可以用于 OCR 。

Mar 4, 2025

Replied to a topic by pol › 问与答 › 问一下 dify 接入硅基流动的的 deepseek-v3 的 api 的问题

你可以了解一下 max_token 这个概念。

Dec 23, 2024

Replied to a topic by jianchang512 › 分享创造 › 利用智谱 AI 免费的 glm-4v-flash 模型，制作了个视频硬字幕提取软件

1. 1 秒间隔肯定会漏字幕。因为有一小部分字幕的持续时间不足 1 秒。现阶段成熟的制品都是用 CV 来做字幕帧判断。
2. 从图中来看，你这个没有换行呀。OCR 的输出没有换行，最终字幕到生产上是肯定用不了的。
3. sentence-transformers 没必要，如果第一步就用 CV 来做的话。当然去重有很多办法，没必要在本地跑模型，简单的字符串相似度检测都有比较好的效果，杀鸡没必要用牛刀。

现在硬字幕转 SRT 的最佳流程还是 CV 截取+传统多个模型共同识别+多模型大模型审校。时间戳和转换出来的效果都很不错。

Dec 23, 2024

Replied to a topic by hfxsm › 分享创造 › 字节豆包大模型，每个模型送 5 亿 tokens， 4 个模型 20 亿，大伙不薅一点吗？

我也是这个月被通知再不用完赠送的额度就要失效了。我当时领取时还发过工单问过赠送额度的有效期，客服回答的是永久有效，没有期限。工单还留着，截图已经保存了。以后开发任何应用我都不会考虑豆包乃至火山的付费服务了，只会白嫖。也希望所有的大模型应用开发者都知道字节火山的这副毫无诚信的德行，谨慎与其合作。

Nov 27, 2024

Replied to a topic by NoOneAI › OpenAI › 才发现在 OpenAI 购买的 API 额度有过期时间，坑爹。。。

你这还不是最惨的，不如遇到 bug 的我：我充了几十刀，基本没用，但是 Usage 里却显示已经全部用完了（在有效期内看到的）。
基本没用，是因为我是把官方的 api 当备用，一直用的便宜的中转。并且官网的 usage 页面里，我查看了自充值以来到现在的每个月的消费账单，基本都不超过 0.3 刀。但是余额就是显示用完了，就是这么离谱，我还不敢跟官方发信咨询，生怕客服看到我绑的卡是虚拟卡封我的号。就当这钱是打水漂了吧。

Nov 8, 2024

Replied to a topic by love2328 › OpenAI › 通过简单的贷款利率,判断出很大 ai 都不如 chatgpt

这个问题必须给足条件才有意义：

我向银行借款 2000, 分 12 期等额本息还款, 每期还款 200.92 , 这样算下来贷款的名义年利率是多少？

只要 AI 能调用代码执行器基本就能回答正确。

Sep 25, 2024

Replied to a topic by andforce › 程序员 › 约 192GB 短信样本如何标记分类？

没必要所有的短信都拿来训练，同意楼上所说，可以先聚类再挑选聚类中心的一部分短信来用于训练。没有被挑中的就拿来当测试集就 OK 了。因为聚成一类的大多数都是重复的模式。

聚类的时候，可以先用正则等文本匹配来识别短信发送源，例如 [XX 应用] 之类的，然后在每个发送源下，使用文本嵌入模型转换向量，之后对向量进行聚类，建议聚多个类，挑选多个聚类中心的前 3~5%的短信来训练。足够有代表性。这一步可以很快，因为文本嵌入模型一般不大，运行速度尚可接受。至此筛选出 2-3kW 条典型短信。

如果还想更快，可以使用分词+词表统计的方法统计词频生成稀疏向量再聚类的办法，这种方法也许更适合，如果数据集中同一来源的大多数短信是套取模板（比如运营商的话费流量短信）生成的，那么可以针对模板类短信取其中千分之一的样本，模板类短信之外的取较大比例的样本，覆盖度更好。

之后就是用 LLM 来进行文本分类了，文本分类任务上，再优秀的传统模型的效果可能才刚好够上最烂的大模型。至于速度问题，可以搭配提示工程尝试效果不错的小模型，或者使用 Groq 等平台，它们提供了吞吐速度较快的大模型，分类任务足够了；而且可以搭配工程实现的优化：对于同一个聚类样本，例如 2K 条样本，如果在分类过程中前 1K 条样本有 95%以上都被判定为垃圾短信，那么可以将后 1K 条样本直接划为垃圾短信，这样做可以节省大量时间。同时也可以考虑多个平台多个账号并发处理，我认为资金充足的情况下，1 秒 10 个的处理速度还是可以达到的。按照这个速度，一个月可以弄完 2.5 kW 条样本的分类。

May 16, 2024

Replied to a topic by guazila › OpenAI › GPT-4o 中文对话答非所问

@syaoranex 更详细的解析可以参考[这篇文章]( https://zhuanlan.zhihu.com/p/697675593)，里面有解析幽灵 Token 的代码，可以自行上手验证。

May 16, 2024

Replied to a topic by guazila › OpenAI › GPT-4o 中文对话答非所问

这没有什么好奇怪的，你只是遇到了「 SolidGoldMagikarp 」现象，或称「幽灵 Token 现象」。详情可以参考这篇文章： https://www.lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldmagikarp-plus-prompt-generation

简单来说，4o 的词表训练的时候，用了大量网路爬虫资讯，其中囊括了大量受污染的词汇，这些词汇出现多了之后，出现次数较多的词组就会被固定在分词模型中。但是在训练的时候，用的则是另一批中文语料，或者这些受污染的词汇网页被清洗了，所以这些 token 没有被充分训练，模型对这些 token 相当陌生，只能大概直到它和某些娱乐、信息、网站相关，所以回复就会比较随机，有时能碰对，有时回复又会天马行空。

用个形象的比喻来说，在大语言模型眼里，幽灵 Token 相当于汉字使用者看到这句话：「介绍一下熕粐彁粫椦恷妛」

但是你只要往这些 token 字符中间加入一个空格，就可以将这个幽灵 Token 破坏为两个普通 Token ，这个时候，模型就能看懂你的输入了。比如原问题是「介绍一下中国福利彩票天天」，你替换为「介绍一下中国福利彩票天天」，或者「介绍一下中国福利彩票天天」，结果就会不一样。

» More replies by syaoranex