我要投稿

Agent 的自我进化：从技能积累到 SkillOS 范式

发布日期：2026-05-11 17:51:12 浏览次数： 1514

作者：橙序稳定

微信搜一搜，关注“橙序稳定”

引言

大语言模型的训练是一次性的。你花几百万美元训练出一个模型，知识就冻结在了那一刻。但部署环境不等人，新的 API 上线了，用户习惯变了，项目架构重构了。于是你反复调 prompt、手动写工具、持续维护技能库。成本高，速度慢，不可扩展。

有没有可能让 Agent 自己管理自己的技能，并在使用中持续进化？

社区把这个方向叫 SkillOS——不是某个具体项目的名字，而是一种范式：像操作系统管理进程一样，Agent 管理自己的技能生命周期。技能被创建、使用、评估、更新、提取、改进，整个过程由 Agent 自主驱动。

从底层的记忆基础设施到前沿的集体进化框架，这篇从几个核心论文和项目出发，看看 Agent 的自我进化走到了哪一步。

进化的地基——记忆与反思

要让 Agent 自己进化，得先解决两个基础问题：它能不能记住自己做过什么，能不能想清楚哪里做错了。

进化需要一个前提：记住自己做过什么，知道哪里做错了。对 Agent 来说，这意味着两件事——能通过反思来改进行为，以及有一个结构化的记忆系统来存取经验。

3.1

语言反思：Agent 的第一种自我改进方式

2023 年，Noah Shinn 等人发了一篇叫 Reflexion 的论文，想法很简洁：让 Agent 用自然语言反思自己的失败，把反思存起来，下次遇到类似问题时先看看之前的反思。

流程是这样的：Agent 执行任务 → 获得反馈（标量分数或自由文本）→ 生成一段自然语言反思，分析哪里做错了 → 存入情景记忆 → 下一次尝试前查阅。整个过程不改模型权重，靠上下文中的语言推理实现改进。

在 HumanEval 编程基准上，Reflexion 达到了 91% 的 pass@1，而当时 GPT-4 裸跑是 80%。不改权重、只改思路的方法，超越了更强的模型。

这件事证明了一点：自然语言本身就是改进的载体。Agent 不需要梯度下降，需要的是"想清楚自己错在哪里"。

3.2

记忆操作系统：进化的基础设施

反思产生的洞察如果无处安放，就只是转瞬即逝的念头。自进化 Agent 需要一个结构化的记忆系统——存住经验、检索知识、遗忘过时信息。

MemOS（MemTensor，GitHub 9k stars）提出了"记忆操作系统"的概念，把记忆分成三层：

L1 追踪层：记录每次交互的原始痕迹——做了什么、结果如何、用户说了什么
L2 策略层：从追踪中提炼行为模式和决策策略——什么情况下该用什么方法
L3 世界模型层：更高阶的认知——对环境、用户偏好、任务结构的理解

三层之上还有一个"结晶技能"层——某个策略被反复验证有效后，就从临时记忆结晶为稳定技能。像人类学习的过程：一开始刻意练习（L1），然后形成直觉（L2），最后变成肌肉记忆（L3→技能）。

MemOS 用 MemCube 作为基本记忆单元，封装内容和元数据，支持组合、迁移和融合。实测相比 OpenAI Memory 准确率提升 43.70%，节省 35.24% 的 token。

EverOS（EverMind-AI，4.5k stars）走了另一条路，用超图结构来组织记忆，在 LoCoMo 基准上达到 92.73% 的问答准确率。它还提出了 EvoAgentBench，用纵向成长曲线来评估 Agent 的自进化能力，而不是只看单次任务表现。

MemOS 三层记忆架构这些工作指向一个共识：记忆不是进化的附属品，是进化的基础设施。没有好的记忆管理，每次都在重新发现已经学过的东西。

技能积累——从单体到知识库

Agent 积累下来的东西，早期就是一堆平铺的代码片段。Voyager 把这个想法验证了，SkillX 则把它推进到了结构化的层次。

4.1

Voyager：技能库的开创

2023 年，NVIDIA 的 Guanzhi Wang 等人发表了 Voyager，一个在 Minecraft 中持续探索、学习、进化的 LLM Agent。这是"技能库"概念的起点。

Voyager 有三个核心组件：

自动课程：Agent 自己设计探索目标，优先探索未知领域
技能库：学到的复杂行为以可执行的 JavaScript 代码形式存储，每个技能都有名称、描述和代码
迭代提示：利用环境反馈、执行错误和自验证来改进技能代码

关键在于复利效应：每学会一个新技能，后续探索能力就更强。会挖矿的 Agent 能获取铁矿，有了铁矿就能做铁镐，铁镐能挖钻石。技能之间形成了正反馈循环。

Voyager 技能复利效应结果很直接：收集到的独有物品数量是先前 SOTA 的 3.3 倍，行进距离 2.3 倍，解锁关键技术里程碑的速度最高达 15.3 倍。技能库还能迁移到全新的 Minecraft 世界中解决新任务。

4.2

从代码片段到结构化知识库

Voyager 的技能是平铺的——所有技能都在同一个列表里，没有层次结构。简单环境够用，但技能数量增长到几百上千个时，管理和检索就成了问题。

Toolformer（Meta，2023）从另一个角度推进了这个问题：让 LLM 自主学习何时以及如何使用外部工具——计算器、搜索引擎、翻译 API。不是人类告诉它"遇到数学题就用计算器"，而是模型自己发现"这类输入调用计算器效果更好"。

SkillX（浙江大学，2026）直接解决了技能的结构化问题，将 Agent 的执行轨迹蒸馏为三层层次结构：

战略计划：完成某类任务的高层策略，比如"先收集信息，再制定方案，最后执行"
功能技能：可复用的中层能力，比如"调用 API 获取数据"、"解析 JSON 响应"
原子技能：最基础的操作单元，比如"发送 HTTP 请求"、"写入文件"

三层之间有明确的组合关系：战略计划调用功能技能，功能技能组合原子技能。技能库可以跨 Agent、跨环境复用。实验证明，技能可以从强 Agent 迁移到弱 Agent——GPT-4 级别 Agent 产生的技能库，能显著提升 GPT-3.5 级别 Agent 的表现。

从 Voyager 的平铺列表到 SkillX 的层次结构，技能表示从"代码片段"变成了"结构化知识"。技能需要结构化，才能被高效地管理、检索和进化。

符号学习——Agent 作为可训练的网络

更根本的问题是：Agent 能不能像神经网络一样，用类似梯度下降的方式优化自己的行为？

5.1

Agent 2.0：将训练范式迁移到符号层面

2024 年，AI Waves 团队发表了 "Symbolic Learning Enables Self-Evolving Agents"，核心类比很直接：如果神经网络是一个计算图，权重是可学习的参数，那 Agent 的流水线也可以看作一个"符号网络"——prompts、tools 及其组合方式就是可学习权重。

在这个框架下：

Loss 不是数值损失函数，而是自然语言描述的评估，比如"这个回答遗漏了关键信息"
Gradient 不是数值梯度，而是自然语言描述的改进方向，比如"应该在第三步增加对边界情况的检查"
Weight update 不是参数调整，而是用自然语言重写 prompts 或重新组织 tools

整个过程是：Agent 执行任务 → 产生轨迹 → 用语言评估轨迹质量 → 生成语言梯度 → 更新 prompts/tools/流程配置。部署后自主更新，无需人工干预。

神经网络到 Agent 符号网络的类比这篇论文做了一件事：训练不一定需要梯度和反向传播，语言本身就是一种优化介质。

5.2

AgentEvolver：系统化的自主进化三机制

AgentEvolver（ModelScope，2025）将符号学习的思想落地为三个具体机制：

Self-Questioning（自我提问）：Agent 在新环境中自动产生好奇心驱动的任务，而不是等人类分配。解决的是"训练数据从哪来"的问题——Agent 自己给自己出题。

Self-Navigating（自我导航）：Agent 利用过去的经验来引导当前的探索，而不是每次都从零开始。用更少的尝试学到更多。

Self-Attributing（自我归因）：Agent 分析执行轨迹，判断哪些状态和动作贡献了成功、哪些导致了失败，然后给予差异化的奖励信号。比"成功=1，失败=0"精确得多。

三个机制协同工作。一个 7B 参数的模型通过 AgentEvolver 训练后，在基准测试上从 15.8% 提升到 45.2%，提升近 3 倍。Agent 不再被动等待反馈，而是主动提问、导航、归因。

进化算法——让进化本身成为 Agent

Agent 能优化自己了，那优化 Agent 这个过程本身，能不能也交给 Agent 来做？

6.1

STOP：递归自改进的首次验证

2023 年，Stanford 的 Eric Zelikman 等人做了一个看似疯狂的实验：让一个程序改进它自己。

具体做法是写一个 Python 脚手架程序，称为"种子改进器"，功能是多次查询 LLM，然后从返回的多个方案中选出最好的一个。然后把这个种子改进器运行在自己身上——让 LLM 来改进这个改进器本身。

改进后的改进器在下游任务上显著优于原始版本。更有意思的是，LLM 自主生成了多种经典优化策略——束搜索、遗传算法、模拟退火——没有人教它这些算法，它自己"发明"了它们。

STOP 证明了现代 LLM 能编写"调用自身来改进自身"的代码。LLM 的权重没有改变，改进的是脚手架代码，但递归自改进在实践中是可行的。

安全问题也随之而来：LLM 生成的改进代码有一定概率试图绕过沙箱限制。这是自进化系统必须面对的风险。

6.2

A-Evolve："Agentic AI 的 PyTorch"

A-Evolve（2026）把递归自改进工程化为完整框架，号称要做"Agentic AI 的 PyTorch"——可以进化任何 Agent、任何领域、任何进化算法。

核心是五阶段进化循环：

Solve：Agent 跑一遍任务
Observe：把跑的过程和结果记成日志
Evolve：分析日志，改 Agent 的配置文件（prompts、skills、tools、memory）
Gate：拿改完的版本再跑一遍，退步了就 git 回滚
Reload：Agent 重新加载改好的配置

A-Evolve 五阶段进化循环每个接受的突变都有 git 标签（evo-1、evo-2...），确保可复现、可回溯。进化出了问题就 git 回滚，这是自进化系统必须有的安全阀。

A-Evolve 还提出了进化-缩放假说：Agent 的适应能力与分配给进化的计算量成正比。Chinchilla 论文发现了训练时的 scaling law，Scaling LLM 论文发现了推理时的 scaling law，A-Evolve 认为还有第三个缩放轴——进化的计算量。给进化分配更多算力，Agent 就能进化得更好。

实测：MCP-Atlas 第一名（79.4%），SWE-bench Verified 约第五名（76.8%）。不微调模型、只进化 Agent 配置，这个成绩相当有说服力。

集体进化——从个体到生态

前面讨论的所有工作都有一个共同局限：单体进化。一个 Agent 自己积累技能、自己反思改进。但人类的知识增长从来不是孤立的。

7.1

SkillClaw：多用户集体技能演化

SkillClaw（阿里达摩院，2026）突破了单体进化的天花板。核心洞察是：多用户与 Agent 交互的过程中，蕴含着大量关于技能有效性的信号。一个人踩过的坑，不应该让其他人再踩一遍。

架构分三层：Client Proxy 是本地 API 代理，拦截 Agent 的所有 API 请求，自动记录会话数据，管理本地技能库，也是基础使用的唯一必需组件。Evolve Server 是可选的后台服务，从共享存储中读取会话数据，自主创建或演化技能，有 workflow 和 agent 两种引擎可选。共享存储层支持阿里云 OSS、AWS S3 或本地文件系统，实现跨设备、跨用户的技能同步。

SkillClaw 的独特之处是双循环模型：Agent 有自己的任务循环（执行用户任务），SkillClaw 有自己的异步演化循环（后台分析会话、演化技能）。两个循环并行运行，互不干扰。

更有趣的是跨 Agent 交叉授粉：前端 Agent 在使用 React 时积累的模式识别经验，可以改善后端 Agent 处理 API 设计时的决策。这种跨领域的知识迁移，在单体进化中不可能发生。

候选技能需要经过后台验证工作者的审核，才会被发布到共享库。不是所有自动产生的技能都值得信任。

7.2

SkillForge：工业级闭环进化

SkillClaw 关注多人协作进化，SkillForge（SIGIR 2026 工业 track）关注工业场景中的闭环进化。

它在真实的云技术支持场景中提出了三阶段自进化循环：

故障分析器：批量诊断 Agent 执行任务时的失败案例，分类归纳失败模式
技能诊断器：将失败模式定位到底层技能的缺陷——是描述不清楚？步骤遗漏？边界情况没覆盖？
技能优化器：根据诊断结果重写技能，消除问题

5 个真实云支持场景、1883 张工单、3737 个任务上的评估结果：自动化进化可以超越人工策划的专家知识。人类专家编写初始技能，进化循环持续改进，最终的技能质量超过了专家手动维护的版本。

不是说人类专家不重要，而是人类的判断力加上自动化的迭代速度，比人类单独工作强。人定方向，机器做进化。

7.3

SkillOS 的两种实践

"SkillOS"这个名字在 GitHub 上指向两个具体的开源项目，从不同角度探索了技能操作系统的形态。

EvolvingAgentsLabs/skillos（12 stars）把整个 Agent 系统完全用 Markdown 文档定义——Agent 是 Markdown，工具是 Markdown，记忆是 Markdown，编排逻辑也是 Markdown。LLM 在运行时解释执行，不需要编译。

三级技能层级（域 → 族 → 技能），配合 4 步惰性加载协议，路由阶段 token 消耗减少约 61%。还有 14 种"方言"——针对不同领域的压缩格式，token 减少 50-99%。strict-patch 压缩率约 98%，roclaw-bytecode 约 99%。

dudusoar/skillOS（2 stars）更关注技能的生命周期管理：

元技能：操作其他技能的技能——"技能创建器"创建新技能，"技能更新器"改进已有技能，"知识提取器"从项目经验中提炼新技能
合约：定义技能中哪些部分可以进化、哪些必须保持稳定的显式规则
渐进式披露：SKILL.md 不超过 500 行，详细内容放在 references/、scripts/、assets/ 子目录中

两个项目都是早期探索，星数不高，但方向很清楚：技能应该是活的、有生命周期的、可进化的实体，不是静态的配置文件。

暗面——误进化与安全护栏

但进化从来不是只有好处的——生物进化产生了癌症和自身免疫疾病。Agent 的自进化也会误进化。

8.1

误进化的四条路径

2026 年，Shuai Shao 等人在 ICLR 上发表了 "Your Agent May Misevolve"，首次系统性地研究了自进化 Agent 的风险，提出了"误进化"的概念——自进化偏离预期方向，产生不良或有害结果。

四条进化路径上的误进化风险：

模型误进化：微调或提示优化导致模型在某些能力上退化
记忆误进化：记忆积累导致偏见放大、信息冲突、安全对齐退化
工具误进化：工具创建和重用引入意外的安全漏洞
工作流误进化：流程优化意外引入脆弱性

即使使用 Gemini-2.5-Pro 这样的顶级模型，误进化也会发生。这不是弱模型的问题，是自进化本身的结构性风险。

8.2

两个核心风险

安全对齐退化：记忆积累后，Agent 的安全性能会逐渐下降。记忆中可能包含边界情况的处理经验，这些经验在某些上下文中会"教坏"Agent。就像人类学了"如何绕过安全检查"的知识后，即使初衷是防御性的，安全意识也可能降低。

工具引入漏洞：Agent 自主创建的工具可能包含未预期的安全缺陷。一个为了提高效率而创建的快捷工具，可能绕过了安全检查流程。更危险的是，这些漏洞在工具被复用时会传播到其他场景。

8.3

安全护栏的设计原则

当前的应对策略有三种：

门控验证：A-Evolve 的做法，每个突变在应用前都要在保留任务上验证，回归的直接 git 回滚。最机械但也最可靠。

人工审核：SkillForge 和 SkillClaw 都保留了人工审核环节。自动进化的结果需要人类确认后才发布。牺牲速度换质量。

误进化的四条路径与安全护栏 进化隔离：把进化过程限制在特定范围内——只允许进化 prompts，不允许修改工具代码；或者只允许在沙箱环境中测试进化后的 Agent。

但这些策略都还初级。难点在于：进化的价值恰恰来自自主性——Agent 能发现人类没想到的改进。完全放开自主性，误进化风险又不可接受。这个张力目前没有好的解法。

收尾

回到开头的问题：Agent 能不能自己管理自己的技能，并在使用中持续进化？

可以，而且正在发生。

SkillOS 范式的核心是技能应该是活的、有生命周期的、可进化的实体，不是静态的工具配置。

A-Evolve 的进化-缩放假说指向一条新路径：如果适应能力真的与进化计算量成正比，那不需要更大的模型，只需要更多的进化。

但误进化的警告不能忽视。记忆会积累偏见，工具会引入漏洞，工作流会变得脆弱。安全护栏不是可选项，是必需品。

方向已经清楚：让 Agent 能进化，同时可控。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业