Taikyo 最近的时间轴更新

Taikyo

V2EX 第 209230 号会员，加入于 2017-01-04 21:13:11 +08:00

今日活跃度排名 18752

Taikyo 提问技术话题好玩工作信息交易信息城市相关

摄影入门求微单推荐

摄影 • Taikyo • 2021-05-10 17:01:44 PM • 最后回复来自 zellalan

收个 PS4 Pro

二手交易 • Taikyo • 2020-06-01 15:56:50 PM • 最后回复来自 cd2want

迫于不看或看完不想看了，送书

免费赠送 • Taikyo • 2019-10-06 10:51:47 AM • 最后回复来自 Taikyo

迫于显示器太大，出一个 32 寸 4k 显示器

二手交易 • Taikyo • 2018-07-29 01:10:21 AM • 最后回复来自 Taikyo

» Taikyo 创建的更多主题

Taikyo 最近回复了

338 天前

回复了 drymonfidelia 创建的主题 › 程序员 › 为什么大模型能记住 dataset 里几万亿字的内容，却记不住和用户聊天时两三万字的 context？

对了，针对 4 楼的问题，我讲下我的理解，因为大语言模型回答的时候，是通过激活跟上下文相关的权重网络进行理解和回应的，并不是检索数据的过程，假设把 context 只针对本次 session 的参数，可能会有另一个问题，就是 context 如果是错误的，根据错误的权重网络，那么就会推导出错误的结果。

338 天前

回复了 drymonfidelia 创建的主题 › 程序员 › 为什么大模型能记住 dataset 里几万亿字的内容，却记不住和用户聊天时两三万字的 context？

训练数据训练的过程其实不是记忆全部数据的过程，而是学习语言规律，用法，结构的过程，训练过程中会调整参数，在训练结束后，这些参数就是大语言模型的 “长期记忆”，而聊天的上下文，会传给大语言模型进行推理，找到权重相关的内容，然后组织出答案。上下文越多，关联的东西就越多，大语言模型需要进行更多的文本分析和激活更多的参数权重，所以就约束了参数的上下文长度。
上面那个是我跟 chagpt-4 一起交流出来的，然后梳理出来的我的理解，有错的欢迎交流指正

2023-07-28 20:45:33 +08:00

回复了 cloud176 创建的主题 › 职场话题 › 专注：如何提高专注力和注意力的简要指南

如果原文是英文的话，蹲个原文

2023-04-22 21:19:46 +08:00

回复了 iorilu 创建的主题 › 程序员 › 大家现在用什么字体可以分享下啊，想找个兼容中文的等宽字体

同样用 2 楼那个字体，中文叫霞鹜文体

2023-04-22 11:08:36 +08:00

回复了 sjmcefc2 创建的主题 › 程序员 › 想请教 windows 上如何阅读 epub？

@iloveoovx readwise

2023-03-26 22:48:02 +08:00

回复了 djyde 创建的主题 › 程序员 › 28 岁，我还想生猛下去

@zhaorunze 要不你分享下你的经历？