普林斯顿大学RLAnything：AI学会一边学习一边给自己打分

发布日期：2026-02-05 17:05:06 浏览次数： 2080

作者：至顶AI实验室

微信搜一搜，关注“至顶AI实验室”

刚开始学自行车的时候，爸妈可能会扶着你，告诉你向左偏了向右歪了。慢慢地，你学会了自己感知平衡，甚至不用别人说，就知道自己骑得好不好。然后你开始提高难度，先在平坦的小路上练，熟练了再挑战有坡度的马路。

普林斯顿大学的研究，做的事情本质上就是这个：让人工智能也学会这种自我学习的本领。2026年2月2日，研究团队发布了一篇名为RLAnything的论文，翻译过来就是强化学习万能版，意味着这套方法可以用在几乎任何需要AI自我学习的场景里。

那么问题来了：为什么AI学习需要一个新方法？目前的AI学习方式有什么问题？让我们一层一层揭开这个故事。

AI学习的老大难问题：做完整件事才知道对不对

想象你是一个正在学做蛋糕的新手。传统的教学法是这样的：你按照菜谱一步步操作，打蛋、加糖、搅拌、烤制……最后蛋糕出炉了，老师才告诉你这个蛋糕不好吃，0分。你崩溃地问：那我到底哪一步做错了？老师却说：不知道，你自己想去吧。

这就是目前很多AI学习面临的困境。在强化学习领域，AI通过不断尝试和获得反馈来学习，但反馈往往只在最后一步才给出。比如让AI操控电脑完成一个任务，它可能需要点击50次鼠标，但只有在第50次之后，系统才会告诉它任务成功或任务失败。至于第3次点击是不是错了、第17次操作有没有问题，AI完全不知道。

这种学习方式在长程任务中尤其成问题。比如让AI帮你订一张机票，它需要打开浏览器、搜索航班、选择日期、填写信息、完成支付……每一步都可能出错，但如果只在最后告诉AI订票失败，它几乎不可能学会。

妙招一：给AI配一个实时解说员

RLAnything的核心创新之一，就是给AI配备了一个实时解说员。这个解说员的学名叫奖励模型，但它的作用很像足球比赛中的解说员，不只是在比赛结束时告诉你谁赢了，而是在每一个关键动作发生时就给出评价。

回到做蛋糕的例子。有了这个实时解说员之后，学习过程变成了这样：你刚把鸡蛋打进碗里，解说员就说蛋打得不错，没有蛋壳碎片；你加糖的时候，解说员说糖量有点少；你开始搅拌的时候，解说员说方向反了……最后蛋糕出炉，解说员再给出一个总分。

研究团队把这种方法叫做整合反馈，把过程中的反馈和最终结果的反馈整合在一起。这样既保证了学习方向的正确性，又让AI能够从每一个小步骤中学到东西。实验表明，单纯依赖最终结果反馈的AI学习曲线几乎是平的；而使用整合反馈的AI学习曲线稳步上升。

妙招二：让解说员也能不断进步

故事讲到这里，你可能会问：这个解说员哪来的？它怎么知道每一步做得好不好？

传统方法需要人类专家来标注，找很多人来看AI的每一步操作，然后给出评分。但这种方法既昂贵又缓慢。RLAnything的第二个创新，就是让解说员也能够自我学习。

研究团队设计了一个巧妙的机制：解说员通过一致性反馈来学习。假设解说员给某一步打了高分，而最终任务成功了，那这个评价就被奖励；如果解说员给某一步打了高分，但最终任务失败了，那这个评价就会被惩罚。

这就像是一个足球解说员在学习变得更专业。如果他说这次传球很精彩，结果球队进球了，那他的判断就被验证是对的；如果他说这次传球很精彩，结果球被对方抢断了，那他就应该反思自己的判断标准。研究团队还让解说员对同一个动作进行多次独立评价，看这些评价是否一致，不一致则可信度降低。

妙招三：AI的专属游戏设计师

RLAnything的第三个创新也许是最有趣的：让AI有一个专属的游戏设计师，能够根据AI的当前水平自动调整任务难度。

你可能玩过那种会根据你的表现调整难度的电子游戏。如果你打得太好，游戏会变难；如果你老是失败，游戏会稍微简单一点。研究团队把这个理念应用到AI学习中：如果AI在某个任务上的成功率超过80%，系统就会把任务变难；如果成功率低于20%，系统就会把任务变简单。

怎么让任务变难或变简单？系统会利用解说员的反馈。解说员会总结AI在这个任务上犯了哪些错误，然后系统根据这些错误信息调整任务。

举个例子。假设AI在学习操作电脑时，有个任务是计算表格中每个员工的年龄。AI失败了，解说员的反馈是AI点错了按钮，把自动求和按钮当成了函数向导按钮。系统收到这个反馈后，会在任务描述中添加提示，比如使用函数向导（fx按钮）而不是自动求和。这样AI就能更容易完成任务。

反过来，如果AI表现太好，系统也会让任务变难。比如在文字冒险游戏中，如果AI每次都能轻松把布料放到抽屉里，系统就会把目标物品换成更难找的肥皂瓶。

研究团队从理论上证明了这种难度自适应机制不仅对AI的学习有好处，对解说员的学习也有好处，只有当任务难度适中时，整个系统才能运转得最好。

三个场景的实战检验

研究团队在三个不同场景中测试了RLAnything的效果。

第一个场景是电脑操作。研究团队使用OSWorld测试平台，让AI在真实电脑环境中完成各种任务，比如操作表格软件、制作演示文稿等。经过RLAnything训练后，模型准确率从35.8%提升到了44.9%，提升了9.1个百分点。

第二个场景是文字冒险游戏。这是一个叫Alf World的模拟环境，AI需要通过文字命令在虚拟房间中导航、拿取物品、完成家务任务。经过训练后，模型表现从44.9%提升到了63.6%，提升了18.7个百分点。有趣的是，AI在训练过程中逐渐学会了思考，一开始往往不经思考就直接行动，训练后会先进行一段推理再执行动作。

第三个场景是写代码。研究团队让AI学习写程序解决编程问题，同时让另一个AI学习生成测试用例。在LiveBench测试中，准确率从31.3%提升到了43.2%，提升了11.9个百分点。

在所有场景中，解说员的判断能力也在不断提升。在电脑操作场景中，解说员判断单步动作质量的准确率从86%提升到了91.3%，验证了解说员和AI相互促进的设计理念。

一个意外发现：AI给自己打分比人类标注还管用

研究过程中有一个令人惊讶的发现：经过优化的解说员给出的评分，居然比人类专家标注的结果还要有效。

研究团队尝试完全不使用人类标注的最终结果，只使用优化后的解说员给出的过程评分来训练AI。结果出乎意料，只用解说员评分训练的AI，表现甚至超过了使用人类标注结果训练的AI。这意味着系统有潜力实现真正的自我进化，AI可以在真实环境中不断学习，而不需要人类持续提供反馈。