我要投稿

更多thinking≠更好结果，精准thinking可砍掉一半长度

发布日期：2025-06-25 19:57:59 浏览次数： 2305

作者：深度学习自然语言处理

微信搜一搜，关注“深度学习自然语言处理”

大模型推理为什么又长又啰嗦？

想象一下让学霸解题：明明第一步就得出答案，却非要反复验算十遍，还写满整张草稿纸——这就是当前大模型（如GPT-4、DeepSeek）的痛点！

论文：Optimizing Length Compression in Large Reasoning Models
链接：https://arxiv.org/pdf/2506.14755

论文发现：模型在简单题目上过度推理，生成大量无关步骤。比如解方程时，答案早出现了，后面全是"让我再检查一下..."的废话。

如图对比：普通模型像写小作文，LC-R1训练后像发微博

关键发现：模型在"无效思考"上浪费45%时间！

作者提出 "无效思考"（Invalid Thinking）概念：

定义：模型得出正确答案后继续的冗余验证步骤
量化指标 VT率：有效推理长度 ÷ 总推理长度

惊人数据：当前顶尖模型的平均VT率仅58-65%，意味着35-45%的计算资源在空转！

好比打车去3公里外吃饭，司机绕路开了6公里

解决原则："简短"和"够用"的平衡术

传统方法粗暴砍长度可能误伤关键步骤。本文提出两大原则：

Brevity（简短）：只保留必要推理，答案一出立刻停笔
Sufficiency（够用）：确保关键逻辑步骤不丢失

类比烹饪：
普通厨师：煮面10分钟，再煮5分钟"确保熟透" → 冗余
智能厨师：煮面10分钟，筷子一夹就关火 → Brevity+Sufficiency

LC-R1方法：双奖励机制的训练魔法

核心方法：用强化学习给模型"植入条件反射"

长度奖励：整体输出越短，奖励越大（防啰嗦）
压缩奖励：精准识别"无效思考"并删除（防过度检查）

关键操作：
当模型首次输出正确答案时，立刻给</think>标记发"红包"（奖励），训练它养成答完即停的习惯！

公式示意：
压缩奖励 = 1 - (有效长度 / 原始长度)
提前终止时罚分 -1（避免偷工减料）

效果验证：砍掉一半长度，精度只掉2%

在7大测试集（数学/编程/逻辑题）中，LC-R1碾压其他压缩方法：

平均缩短50%长度：从1万token→5千token
精度仅下降1.8-2.1% （其他方法降幅4-12%）
VT率飙升至97% （原模型仅58%）

如图：LC-R1稳居帕累托前沿最优位置

案例对比：同一道数学题

原始模型：写1600字小作文（43%是废话）
LC-R1：500字搞定，逻辑完整

彩蛋：压缩后模型反而更"专注"？

不影响探索能力：多次尝试解题的成功率不变
通杀难易题目：从小学数学到奥赛题，压缩率稳定

"删掉的真是纯废话，留着的全是干货！"

结语

LC-R1的价值不仅是技术突破，更揭示了模型推理的本质规律：
更多步骤≠更好结果，精准思考才是王道。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-28

字节跳动最新AI Coding实践曝光，我总结了7 条反常识的结论

2026-06-28

企业级AI的核心不是Agent，而是让Agent变得不重要的Skills

2026-06-27

OpenAI深夜引爆GPT-5.6，三箭齐发全面围剿Anthropic

2026-06-27

Agent 发邮件踩坑全记录：从 SMTP 翻车到 Agently Mail

2026-06-27

AgentTeams 和 Claude Tag 都进入群聊模式，是新范式还是新叙事？

2026-06-27

GPT-5.6 Sol深夜炸场发布！OpenAI最强模型碾压Claude 5！

2026-06-26

腾讯混元AI Infra如何优化Hy3 Preview：一次大模型推理性能提升的技术拆解

2026-06-26

多智能体的记忆接线：同一任务，每个角色看到的不一样

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

大家都在问

AgentTeams 和 Claude Tag 都进入群聊模式，是新范式还是新叙事？

2026-06-27

Agent 从 Demo 到生产级，中间到底差什么？

2026-06-26

微信在金矿上孵化了啥？

2026-06-25

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部