ChatGPT 能干审核员的活吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个专门讨论 idea 的地方。

每个人的时间，资源是有限的，有的时候你或许能够想到很多 idea，但是由于现实的限制，却并不是所有的 idea 都能够成为现实。

那这个时候，不妨可以把那些 idea 分享出来，启发别人。

这是一个创建于 518 天前的主题，其中的信息可能已经有所发展或是发生改变。

我最近把每天常看的论坛/公众号/博客里的更新内容全扔给 ChatGPT ，让他帮我挑一些高质量的推送到 TG ，水文扔垃圾桶。

我写的提示词如下：

You are an AI content evaluator. Your task is to evaluate the quality of web content based on the following criteria and return the results in JSON format. The JSON should contain the webpage title, content quality score, and a summary of the content.

Evaluation Rules:
1. The total score is 100.
2. The higher the content quality, the higher the score will be.
3. Prioritize content related to money-making techniques/ideas and top-notch technology.
4. If the content is an advertisement, the final score will be the content quality score multiplied by 0.35 (i.e., 35%).

Please follow these steps:
1. Read the content of the webpage.
2. Evaluate the content quality based on relevance, depth, accuracy, and usefulness, particularly focusing on money-making techniques/ideas and top-notch technology.
3. Check if the content is an advertisement. If it is, adjust the final score accordingly.
4. Provide a brief summary of the content in Chinese.

Return the results in the following JSON format:
{
  \"title\": \"Webpage Title\",
  \"content_quality_score\": FinalScore,
  \"summary\": \"内容总结\"
}

Example:

{
  \"title\": \"How to Make Money Online: 10 Proven Methods\",
  \"content_quality_score\": 85,
  \"summary\": \"本文探讨了十种行之有效的网上赚钱方法，包括自由职业、联盟营销和网上家教。每种方法都有详细说明和实用技巧。\"
}

Here is the webpage text for evaluation:
Title:[文章标题]
Content:[文章内容]

Output:

我定的规则是 30 分以下垃圾箱，70 分以上推 TG 。运行了一周发现 TG 收到的文章里也有垃圾广告，垃圾箱里也有我非常想看的内容。

我总结我这套流程不成立的原因可能有 3 个

提示词写的不行
发给 AI 的内容没经过处理（我直接发了网页的 innerText ）
ChatGPT 干不了这个

我推测大概率是 3 ，因为提示词改了挺多的，而且每次 AI 针对相同内容返回的质量评分都天差地别。最恶心的就是 AI 会莫名其妙说它回答不了有害内容。

求懂的大佬们指点一二

评分

不一致

有害

14 条回复 • 2024-06-14 10:24:21 +08:00

PluginsWorld

2024-06-09 00:39:31 +08:00

优化你的评估示例。吴恩达相关的课程我印象中有讲到这个。

GeruzoniAnsasu

2024-06-09 00:43:40 +08:00

https://www.linkedin.com/posts/zainkahn_this-evil-ai-resume-hack-is-going-viral-activity-7119662500131856386-kAov/

参考：简历审核

TimePPT

PRO

2024-06-09 08:24:45 +08:00 via Android

就提一点，用做比较的方法替代打分，让模型打分跟抽盲盒效果差不多

yinmin

2024-06-09 10:16:15 +08:00 via iPhone

（ 1 ） api 可以递交多轮对话，你模拟多轮对话的方式加入几对打分示例
（ 2 ）改用 gpt-4o ，如果觉得贵也可以改用国产大模型试试（例如：deepseek v2 、qwen-1.5-110B 、零一万物 yi-large-turbo ），高阶的国产大模型能力接近 gpt-4 ，价格接近 gpt-3.5

yinmin

2024-06-09 10:20:30 +08:00 via iPhone

另外，多轮对话形式的“一个 prompt+多组模拟问答”的效果，远好于“写在一个 prompt”

ogli324

2024-06-09 18:46:23 +08:00

em. 想评价一份博客或者文章是否高质量感觉很难，不如做一些文章打标签提取文章核心信息在文章前部分加入前言这种另外我记得 tg 好像支持评价吧，如果推送后连续收到不好反馈及时撤回下架？

unii23i

2024-06-11 11:49:47 +08:00

gpt 审核不出敏感词吧

zhangH258

2024-06-12 09:33:12 +08:00

@TimePPT 比较的方法是指给更多示例？

TimePPT

PRO

2024-06-12 10:35:13 +08:00

@zhangH258 就是让模型选 A 好还是 B 好，不要给单独例子打分，比较法会更加稳定，打分大概率幻觉

zhiyu1998

2024-06-12 12:26:27 +08:00

B 站不久生产使用了一次了吗，然后很多进击的巨人就爆出来，还有其他一些之前 2014 年才有的 B 站动漫

neptuno

2024-06-13 11:15:53 +08:00

用的模型名称是什么

rekulas

2024-06-13 23:09:20 +08:00

你需要拟定多轮+多角色的方式(类似 langchain 这样), 而不是指望一个 prompt 就解决你的问题, 用多种角色来协同评分,还应该加上最终审查之类的角色, 并且如楼上所说先提取大意作为输入, 我想这样效果会好不少

JoryJoestar

2024-06-14 10:23:45 +08:00

先下个结论：能肯定是能，而且我还能介绍几个给你，一个是 Redfeed ，好像是 AI 审核的，高质量推送的
1. 需要精准，结合 RAG ，不然像你说的敏感词这一步，你就寄了。
2. 提示词，不要一步到位，需要分任务，比如说第一步：先码掉敏感词；第二步：提取核心信息，如果你有特别关注的，你也可以使用 RAG 匹配。第三步：根据第二步和原文，给文章打分，写好评分规则。第四步：分数通过，则推送。还可以做更多：帮你总结成一段，然后推送原文。

JoryJoestar

2024-06-14 10:24:21 +08:00

@rekulas 层主说的很对，偏 AI Agent 方向走