微信扫码
添加专属顾问
我要投稿
SkillRL突破传统轨迹存储方式,将经验提炼为可复用技能库,实现智能体自我进化与决策效率10-20倍提升。核心内容: 1. 传统轨迹存储的局限性及技能抽象的必要性 2. SkillRL三件套:技能蒸馏、层级技能库与递归进化机制 3. 在多个基准测试中验证的显著性能提升与消融实验结果
现有 LLM Agent 的“经验”常以外部记忆形式保存原始轨迹,但轨迹往往冗长、包含探索回退与噪声,导致相似检索时上下文开销高、关键信号稀释,甚至性能随任务复杂度上升而退化。论文主张有效迁移需要“抽象”:类似人类不记每一步,而是形成可复用的技能规则。
在环境 中用基座策略采样轨迹 。
对成功集 直接提炼关键决策点与可迁移模式;对失败集 不直接入库,而让教师模型总结“失败发生点、错误原因、正确做法、可泛化规避原则”,把冗长失败轨迹压缩为可执行的“边界条件/反例规则”。
推理/训练时,通用技能始终加入上下文;任务技能按语义相似度检索 Top-K:
静态技能库难覆盖训练中不断出现的新状态区域。SkillRL 在验证阶段按任务类别监控成功率 ,当 时触发进化:收集失败轨迹 (分层、按失败严重度优先、轮转采样以保持类别多样性),教师生成新增/修订技能:
论文采用 GRPO(无 critic、组内相对优势)优化技能增强策略;每个任务采样 条轨迹,二值奖励 ,优势为标准化形式,目标函数为 PPO 风格裁剪项加 KL 正则,KL 参考为冷启动后的 ,以避免 RL 破坏“会用技能”的能力。
附录示例表(如 Table 5–8)展示 SkillBank 的具体形态:既有“系统化探索、动作前检查、循环逃逸”等通用规则,也有 WebShop 的“先核验约束、变体切换后复查价格、发现不匹配立即返回搜索”等细粒度流程技能;同时配套错误分类(如“遗漏约束”“变体导致价格漂移未复查”“过早购买”),用于把失败轨迹转成可执行的防错原则。
实现使用 Qwen2.5-7B-Instruct 作为基座,教师用于蒸馏与 SFT 数据生成;检索参数示例:,进化触发阈值 ;训练采用 GRPO,学习率 等(更细见超参表 Table 4)。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-13
跳出英伟达生态:OpenAI 发布新编程模型 GPT-5.3-Codex-Spark,速度达 1000 token每秒
2026-02-13
刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与
2026-02-13
Agent Skills实操心得:Claude Code篇
2026-02-13
来自MiniMax M2.5的震撼 :小尺寸几乎打平opus4.6,巨便宜,巨能干活,速度巨快
2026-02-12
我给 Claude Code 加装了 MiniMax M2.5:它像“法拉利”,但更像一台工作机
2026-02-12
AgentRun 实践指南:Agent 的宝藏工具——All-In-One Sandbox
2026-02-12
Higress 已支持全新 Gateway API 及其 AI 推理扩展
2026-02-12
GLM-5 发布:从“写代码”到“写工程”的范式跃迁
2026-01-24
2026-01-10
2025-11-19
2026-01-26
2026-01-01
2025-12-09
2025-12-21
2026-01-09
2026-02-03
2026-01-09
2026-02-12
2026-02-12
2026-02-11
2026-02-11
2026-02-11
2026-02-11
2026-02-07
2026-02-04