微信扫码
添加专属顾问
我要投稿
AI模型如何"少说废话"?这篇论文教你识别真正高效的思考方式。 核心内容: 1. 揭示大语言模型中"推理通胀"现象及其资源浪费问题 2. 提出创新方法GFPO,通过"优中选优"机制提升思考效率 3. 两种关键筛选标准:响应长度与令牌效率的平衡应用
在大语言模型(LLM)的领域里,我们常常陷入一种直觉性的迷思:模型思考得越“久”,生成的答案越长,似乎就代表着更深度的推理和更高的准确性。这种现象被称为 “长度启发式”(length heuristic) ,即模型倾向于生成更长的、看似详尽的回复,以期获得更高的奖励和准确率。
然而,这篇名为 《Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning》 的论文向我们揭示了这一现象的另一面:更长的回答并不总是等同于更优的答案,反而常常伴随着 “推理通胀”(reasoning inflation) ——即模型在推理过程中产生了大量冗余、无效的“废话”,不仅没有提升准确率,反而极大地浪费了计算资源。
想象一下,如果一个AI助教在解答学生问题时,总是滔滔不绝,给出的答案虽然最终正确,但过程却冗长复杂,充斥着无效信息,这无疑会降低学习效率。
因此,如何在保证甚至提升模型推理准确性的同时,有效压缩推理长度,实现简洁而高效的思考,成为了一个亟待解决的重要课题。这篇论文正是针对这一痛点,提出了一种名为组过滤策略优化(Group Filtered Policy Optimization, GFPO) 的创新方法,旨在教会模型如何“少说废话”,进行更有效率的思考。
论文的核心贡献在于提出了一种简单而高效的训练方法——GFPO。这个方法的核心思想,可以用一个很形象的比喻来解释:“集思广益,然后优中选优”。
传统的强化学习方法,比如GRPO(Group Response Policy Optimization),通常是让模型针对一个问题,生成一组(比如G个)候选答案,然后对这些答案进行评估,并根据评估结果统一调整模型的策略。这种方法虽然也能提升模型性能,但它并没有明确区分“好”答案和“坏”答案中的具体特质。特别是,它无法有效解决前面提到的“推理通胀”问题,因为模型在训练过程中,仍然会受到那些冗长答案的“污染”。
GFPO则更进了一步。它同样是让模型先生成一个包含G个候选答案的“大池子”,但接下来,它引入了一个关键的 “过滤” 步骤。它会根据一个预先设定的 “度量标准” (metric),从这G个答案中,只挑选出最符合我们期望的k个(k < G)“精英”答案。然后,仅仅使用这k个精英答案来计算策略梯度,更新模型参数。
这个 “度量标准” 可以非常灵活,论文中重点探讨了两个核心指标:
通过这种 “先筛选,再学习” 的机制,GFPO相当于为模型提供了一个非常明确的“指挥棒”:“请学习这些既准确又简洁的榜样,而不是那些又臭又长的答案。” 这种显式的过滤操作,就像一个严格的编辑,帮助模型在训练的早期阶段就剔除掉那些冗余、低效的推理路径,从而引导模型朝着更简洁、更高效的推理方式进化。
此外,论文还提出了GFPO的两个重要变体:
GFPO的核心创新在于,它通过一个简单而灵活的“过滤”机制, 将我们对“好答案”(例如,简洁、高效)的期望,直接、显式地注入到强化学习的训练过程中,从而有效地抑制了推理通胀,实现了在不牺牲准确率的前提下,大幅缩短模型的推理长度。
要理解GFPO的技术细节,我们首先需要简单回顾一下它的前身——GRPO。 GRPO的目标函数可以表示为:
这里的关键在于,它对从策略采样的G个响应是“一视同仁”的,每个响应都被用来计算优势,并最终影响策略的更新。
而GFPO的核心改动,就在于这个“一视同仁”上。 GFPO的目标函数变为:
最大的区别在于优势函数的计算。在GFPO中,我们先走一步“过滤”棋:
1. 采/样 (Sampling):和GRPO一样,对于一个问题q,我们首先从当前策略中采样出一个包含G个候选答案的集合。
2. 评分 (Scoring):接下来,我们根据一个预设的度量函数metric(·)
(比如答案长度或者令牌效率),为G中的每一个答案打分。
3. 排序与过滤 (Sorting & Filtering):根据分数,我们对这G个答案进行排序,并只选出排名前k的答案,形成一个“精英子集”。
4. 计算“精英优势” (Calculating Advantage within the Elite Set):最关键的一步来了。 GFPO只在这个精英子集内部计算平均奖励和奖励的标准差。然后,用这个“精英圈”的统计数据来标准化每个精英答案的奖励,从而得到优势。对于那些没有被选入精英子集的答案,它们的优势直接被置为0,相当于在这次策略更新中被“无视”了。
通过这种方式,GFPO的梯度更新完全由这k个“精英答案”主导。模型学习的目标不再是模糊地提升所有G个答案的平均表现,而是非常明确地去模仿这k个被精心挑选出来的、符合我们特定偏好(例如,简短、高效)的“榜样”。
自适应难度GFPO的实现:这个变体增加了一个动态调整k值的环节。它通过一个轻量级的数据结构(t-digest)实时追踪模型在所有问题上的平均奖励,从而估计出当前问题的难度分位数。然后,根据难度分位数将问题划分为“简单”、“中等”、“困难”、“非常困难”四个等级,并为每个等级分配不同的k值。例如,对于简单问题,使用较小的k(如k=4),进行更严格的筛选;对于非常困难的问题,则使用较大的k(如k=8),保留更多的探索可能性。
论文通过在多个数学推理和代码生成基准测试(如AIME 25, AIME 24, GPQA, Omni-MATH, LiveCodeBench)上的详尽实验,充分证明了GFPO方法的有效性。
实验设置:
关键实验结果解读:
1. GFPO在不降低准确率的情况下,显著缩短了响应长度:
从论文的Table 1和Table 2中可以清晰地看到,在所有的测试基准上,几乎所有GFPO变体的准确率都与GRPO持平(统计上无显著差异),但是平均响应长度却大幅降低。 例如,在AIME 24数据集上,“令牌效率”GFPO (Token Efficiency GFPO) 将响应长度从GRPO的13.3k个令牌,惊人地压缩到了10.6k个令牌,实现了高达84.6% 的超额长度减少,而准确率几乎没有损失。这充分证明了GFPO能够有效实现“简洁推理”。
2. “令牌效率”是最高效的筛选标准:
实验结果一致表明,基于“奖励/长度”比值进行筛选的“令牌效率”GFPO,在削减长度方面表现最为出色。它在几乎所有任务上都取得了最高的ELR值。这说明,仅仅追求“最短”可能并非最优策略,而是一种兼顾了“质量”与“效率”的度量标准, 更能引导模型学到真正简洁且高质量的推理方式。
3. 自适应难度GFPO实现了计算效率与性能的平衡:
与固定k值的GFPO相比,自适应难度GFPO在相同的计算成本下,表现出了更强的竞争力。 它能够根据问题难度智能地分配“学习资源”,在难题上保留更多样本以保证准确率,在简单题上则大胆削减,从而在整体上达到了比固定策略更好的效果。例如,在多个基准上,自适应难度GFPO的表现都优于计算成本相当的Shortest k/G变体。
4. 采样更多(增大G),过滤更狠(降低k/G比率),效果更好:
论文通过对比不同G(总采样数)和k(保留数)的组合,发现了一个重要的规律:扩大初始的候选池子(增大G),然后以一个较低的比例进行筛选(例如保留25%-33%),是控制推理长度最有效的手段。这再次印证了 “集思广益,优中选优” 的直觉——你见过的“好学生”越多,你才越明白什么是真正的“好”。当G从8增加到16,甚至24时,GFPO在长度控制上的能力也随之增强。
5. GFPO在难题上表现尤为突出:
通过对不同难度问题的分析(Figure 6),论文发现GFPO在削减难题的响应长度方面效果尤其显著。 对于“非常困难”的问题,GFPO能够将GRPO的冗长推理链大幅缩短,同时保持甚至略微提升准确率。这表明GFPO能够帮助模型在面对复杂挑战时,更快地找到核心解决路径,而不是陷入无效的“暴力尝试”。
总而言之,《Sample More to Think Less》这篇论文以其简洁而深刻的洞察,为我们打开了一扇新的大门。它提醒我们,在追求模型能力极限的道路上,有时需要的不是更强的“蛮力”,而是更精巧的“智慧”。 教会AI如何进行简洁而高效的思考,将是其从“强大的工具”迈向“真正的智能伙伴”的关键一步。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-30
大模型的“思维链”(Chain-of-Thought):AI 是怎么一步步“推理”的
2025-08-30
Agentic AI与WorkFlow的相互成就
2025-08-29
刚刚,xAI 发布 Grok Code Fast 1 编程模型,快、便宜、免费
2025-08-29
大模型时代有了自己的「价值高速公路」
2025-08-29
A I智能革命——上下文工程新突破
2025-08-29
知识库检索准不准,关键看模型选没选对!一份评测指南请收好
2025-08-29
我如何用Prompt工程将大模型调教成风控专家
2025-08-29
度小满金融大模型技术创新与应用探索
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-07
2025-06-12
2025-06-19
2025-06-13
2025-07-29
2025-06-15
2025-08-28
2025-08-28
2025-08-28
2025-08-28
2025-08-27
2025-08-26
2025-08-25
2025-08-25