2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

AI学会反思后智商飙升,分享我训练AI干活的3个方法

发布日期:2025-07-09 08:17:56 浏览次数: 2845
作者:快刀青衣

微信搜一搜,关注“快刀青衣”

推荐语

AI学会像人类一样反思错误并自我进化,创业团队用3步法让大模型智商飙升!

核心内容:
1. AI从错误中学习的创新方法:反思-重试-奖励机制
2. 对比传统训练方式的突破性优势
3. 具体实施步骤与效果验证案例

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

说内容前,我先说说自己是怎么发现这篇论文的。熟悉AI的同学大多知道一个网站叫Hugging Face,这个平台不仅有各种大模型的训练场和技术讨论区,还开设了一个“每日论文”栏目。由于AI领域如今太过火热,每天都有大量新论文发布,这个栏目就像是一个论文版的“知乎热榜”——作者提交论文,读者点赞排名。
今天要介绍的这篇论文,是这个栏目6月排行榜的第三位。论文作者并不是一个典型的高校研究学者,而是一家名叫Writer的人工智能创业公司的研究团队,联合作者一共有八个人。

也许正因为是创业企业的研究团队,所以没有那么在乎学术层面的论文惯例,整个论文加上引用也只有16页,读起来也没有故作高深,非常简单明了。

01
3个步骤,教会AI从错误中学习

这篇论文——《反思、重试、奖励:通过强化学习实现自我改进的大语言模型》——光是题目,你就能知道这项研究的核心结论是什么。

对我们人类来说,“从错误中学习”是非常重要并且有效的学习方式之一。不信你去网上搜搜看,文具有一个专门的品类就叫“错题本”。我们在求学时,当一道题没做对的时候,好的老师肯定不会直接说答案,而是会引导我们反思:“你觉得问题出在什么地方?下次可以怎么改进?”

而这篇论文的核心研究,就提出了一种巧妙的方法,能让AI像人一样,从错误中不断成长。

研究团队发现,即便是再强大的模型,也存在自己的“盲区”——它在某一个任务上表现得非常好,但并不代表它就一定能顺利搞定类似的另一个任务。

面对这个问题,传统的解决办法是收集更多数据,对模型进行重新训练或微调。

但这样的做法往往存在几个现实难题:一是很多时候你并没有更高质量的新数据可用;二是即便训练了,也常常出现“打地鼠”式的问题——那就是优化了一个点,另一个原本表现不错的地方反而出了问题。

后来,研究团队就换了一个思路:与其一遍遍喂AI数据、调优模型,不如教会它怎么反思。只要让AI掌握“怎么从错误中总结经验、改进自己”的方法,它在面对不同任务时,就能逐步自行进化。用通俗的话说,就是不再一味“灌知识”,而是教它“怎么学”。

这个方法一共包含三个步骤,就像论文标题里写的那样:反思、重试和奖励。

第一步,反思。当模型在某个任务上第一次失败时,系统不会直接结束,而是让它先生成一段自我反思的内容,分析自己到底哪里出了问题。就像学生考试答错题后,会问自己:“我哪一步想错了?是不是公式用错了?”这一环节的核心目的,是让AI开始自我觉察,并意识到错误的原因。

第二步,重试。这时候,AI模型会带着刚才的反思内容,再去尝试完成同一个任务。就像学生在弄明白上次哪里出错后,再去解同一类题目,就更容易成功。

第三步,奖励。如果模型在第二次尝试中成功完成了任务,系统就会对它在“反思阶段”所生成的内容进行奖励。这里的“奖励”并不是我们理解中的发红包,而是一种强化学习技术。简单来说,就是通过调整模型参数,让它更偏向于那些曾经带来正面结果的反思方式。

你可以把这个过程想象成一个老师在表扬学生:当学生通过反思改正了错误,终于做对了一道难题,老师会说:“你的反思很有帮助,继续保持下去,你的数学会越来越好。”注意,老师夸奖的不是解题方法本身,而是“反思”这一学习策略。所以学生就会知道,反思是有效果的,遇到问题的时候,就应该用这种方式来解决。

所以,这个机制的创新点在于:研究人员奖励的并不是模型最后给出的正确答案,而是它中间生成的“反思过程”。

这样的训练方式,让模型不再依赖死记硬背某个问题的答案,而是逐渐学会了一种通用的、自我纠错和自我提升的能力。

02
AI学会反思,效果如何?

研究团队不是光讲概念,他们还做了两个实验,来实际验证这个机制的有效性。

这两个实验对于AI来说都不算简单,一个是函数调用,一个是数学方程求解,都属于具有挑战性、但又能够清晰判断对错的任务类型。

先说函数调用。传统技术开发需要对接各种API接口,要填入各种参数。这个任务就是看AI能不能正确地调用,这不同于那种没有标准答案的写作任务,调用API,成功与否,判断标准非常明确。

实验团队在多种规模大小的模型上都做了实验,测试了这种机制,例如从15亿参数的小模型到72亿参数的模型不等。效果令人惊叹。

一个只有15亿参数的阿里千问小模型,在这个任务上,一次就答对的概率只有大约32.6%。

但是经过今天介绍的这个反思训练后,第一次尝试的准确率就跃升到了48.6%,提升了16个百分点。如果允许它利用自己的反思再尝试一次,第二次的成功率就达到了52.9%,这相比原始能力提高了20多个百分点。

再说第二个任务——数学方程求解,它比函数调用更困难得多。

实验中,15亿参数的模型在第一次尝试时,正确率只有6%,几乎等于纯靠蒙的水平,就好比初中数学100分满分只考了个6分。

但当模型引入“反思机制”训练后,第一次尝试的正确率跃升到了34.9%,已经是一个质的飞跃。如果再让它根据第一次的反思重试一遍,第二次的成功率更是提升到45%。

正确率从最初的6%到最后的45%,这个跨度就像从不及格一路提升到接近及格线。

还有一个更惊人的发现是,经过这种学习方法训练的小模型,在能力上超过了参数量比自己大十倍的更高级模型。

研究团队同样使用了千问的70亿参数模型进行训练,结果发现,在这两个任务上,学会“反思”的70亿模型,表现都超过了不会反思的720亿模型。要知道,这两个模型都属于阿里千问系列。

这就像一个经过良好学习方法训练的高中生,在某些难题上,反而能打败知识储备多出十倍、但缺乏方法的博士生。

这个发现的现实意义在于,对于某些任务来说,并不一定非得依赖超大规模模型,如果能优化训练方式,小模型不仅节省成本,也能具备很强的能力。

03
我训练AI干活的方法

我之所以要介绍这篇论文,是因为它的核心结论,对我们普通人是有借鉴价值的。

我观察到身边有一些同事在使用AI工具时,往往只进行一轮对话:给AI发一个任务,等它完成后就结束了。有时即便AI明显给出了错误答案,回应也只是简单一句“错了,再试一次”。

但按照这篇论文的启发,我们其实可以稍微调整一下话术,比如说:“你的答案可能有问题,请分析一下哪里出错了,然后再重新回答一遍。”

其次,在一些具体场景下,我们可以给AI提供更明确的反思方向。

比如在做商业决策分析时,读完AI的第一轮回答后,你可以补充说:“你的分析似乎忽略了市场风险因素,请重新考虑并补充完整。”当然,这种方式前提是你自己能敏锐地识别出回答中的问题。

类似的反思提示词还有很多,例如:
  • “请检查一下你的推理过程,找出可能的逻辑漏洞。”
  • “分析一下你刚才的回答哪些地方可能不够准确。”
  • “如果让你重新回答这个问题,你会怎么改进?”
  • “你觉得你的答案已经完全满足问题要求了吗?请详细说明。”

最后,我想分享一个我偶尔会用的小技巧,它和本文介绍的“反思机制”有异曲同工之妙。我给它起了个名字,叫做 “PUA大法”

这个方法尤其适用于那些重要且复杂的任务,比如撰写竞品分析报告或者调研文档。我的做法是,先准备好三到四个表现稳定的大模型,比如从ChatGPT、Claude、DeepSeek、豆包、Kimi中挑选几个。

我个人的习惯是:先把任务描述清楚,然后分别让豆包、Kimi和DeepSeek先各自完成一次回答。

接下来,我会打开ChatGPT,对它说:“我正在完成一个任务,任务内容是……我已经请三个AI助手分别作答。现在你是评审官,请你根据任务的特点,制定一套100分制的评卷规则,然后分别对这三个助手的答案打分,并详细说明你的评分理由。”

接下来,我就会把其他几个AI的回答一个个发给ChatGPT。这时它会先搭建一套评分标准,再对其他AI的回答进行打分和点评,比如给出85分、87分之类的分数,并详细解释打分理由。

然后,我就会开始“PUA”它,对它说:“你既然这么懂,那你自己来答一遍这个问题看看?”

它会乖乖照做,答完后,我继续追问:“那你就按你刚才的评分规则,对你自己的回答也打个分,并说明理由。”

它通常会开始进行所谓的“公正打分”和自我评价——但你会发现,它几乎每次都比给其他AI打的分数高,一般会打个90到95分之间。哪怕这样,我也不会放过它,还要继续追问:“那你这剩下的几分是扣在哪里了?好好想想,再改一遍。”

当然,它最后输出的结果是不是满分作品,其实并不重要。但在这个过程中,往往会冒出很多新思路和新角度,对我们人类来说是很有启发的。

这个方法其实很简单,说到底,可能还是被我初中数学老师“深刻启发”过。当年他那种高压反思式教学,让我一度对数学敬而远之。

不过还好,现在的AI没有情绪,不会反抗,我们可以尽情用“PUA语气”去激发它的智力潜力。

   


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅