微信扫码
添加专属顾问
我要投稿
EvoMap团队研究发现,冗长的技能文档反而会降低模型表现,而简洁的“基因”对象却能显著提升效果。这揭示了提示方式正从“咒语”向“教做人”的进化。核心内容:1. 冗长技能文档反而降低模型表现的实验发现2. 提示方式进化的三个阶段:提示词、上下文、围栏工程3. “围栏工程”的核心思路:划定边界而非规定步骤
你写了两千字的 Skill 文档,模型看完反而变差了。不是因为写错了,而是因为写太多了。
一个反直觉的起点
有一种常见的 Agent 开发体验:
你把任务背景写清楚了,把流程拆清楚了,把常见坑、API 用法、示例代码、注意事项都塞进去了,甚至还专门写了一份长长的 Skill 文档。
可下一次同类任务再来,模型还是可能在同一个地方犯错。这套路径有一个共同前提:把经验作为一份文档存储、召回、重新喂给模型,就会带来提升。
EvoMap(Infinite Evolution Lab × 清华大学)团队最近的研究,他们做了 4,590 次受控实验,结果让人意外:
|
~2,500 token 的完整 Skill 包 •平均表现低于无指导基线 1.1pp •在强模型上狠狠拖后腿(60.1→50.7) |
~230 token 的 Gene 对象 •稳定高出基线 3.0pp •十多倍更短,但效果碾压 |
完整 Skill 包在 Gemini Pro 上,不仅没提升,反而把模型的固有能力压下去近 10 个百分点。给人看的东西塞进模型的执行预算,反而会成为控制噪声。
提示方式的十年进化:一条被忽略的主线
从 2022 年到现在,所有人都在盯着模型变大、上下文变长。但另一条同样重要的线几乎被忽视了——我们教 AI 的方式,本身在进化。
这条线的核心问题只有一个:经验回到模型那一刻,长什么形状? |
第一阶段:提示词工程(2022-2023)——"说对话"
ChatGPT 上线,所有人都发现了一件事——这个模型听得懂人话。
于是提示词工程横空出世。人们相信,只要措辞足够精妙,就能解锁模型的无限能力。"你是一个经验丰富的 XXX,请用 XXX 的语气,分 XXX 步,用 XXX 格式回答"。
核心假设:模型已经知道该知道的一切,你只需要"说对"。
但很快,裂缝出现了。同一个 prompt,换个模型就失效了。隔一周就不行了。提示词的本质缺陷:它依赖的是技巧,而非逻辑结构。
第二阶段:上下文工程(2023-2024)——"给对东西"
行业开始转向一个更根本的问题:模型在回答之前,到底知道了什么?
思路变了——不再是怎么说,而是说什么之前,先让它知道什么。
上下文工程的核心是分层的:
•持久层:身份、用户画像、行为准则
•知识层:RAG 从外部数据库实时注入
•瞬态层:根据对话方向动态调整
也就是不再问更好的问题,而是构建更好的条件让答案自己浮现。
第三阶段:围栏工程(2024-2025)——"画好边界"
上下文解决了知道什么,但没解决不能做什么。
围栏工程的核心想法很直接:与其告诉 AI 每一步怎么走,不如划好边界,让它在边界内自由行动。这就像教小孩——你不需要告诉他每一步迈哪只脚,你只需要告诉他"别跑到马路上去"。这比逐条写 prompt 高效得多,也更接近人类的管理方式——定规则,而不是定步骤。代价就是要多花些token,这个和管理人类也一样,对于有经验的员工你需要指导的越少,对于初级员工你就要给与更多的时间给他不断试错。
第四阶段:文件即人格(2025-现在)——"塑造一个存在"
然后,事情开始变得有趣。
Claude 推出了 Agent Skills——把专业能力打包成文件系统里的一个目录。OpenClaw 更进一步,整个 workspace 就是一套 Markdown 文件组成的"人格塑造器":
workspace/ |
这不是在写 prompt。这是在给一个数字生命写成长档案。 |
每一个文件都在回答一个根本问题:
文件 |
回答的问题 |
SOUL.md |
你是谁?你的性格、价值观、行为风格是什么? |
USER.md |
你在服务谁?他们的偏好、习惯、背景是什么? |
AGENTS.md |
你的工作规则是什么?什么该做,什么不该做? |
MEMORY.md |
你记住了什么重要的人和事? |
TOOLS.md |
你手头有哪些工具?怎么用? |
HEARTBEAT.md |
没人找你时,你该主动做什么? |
这是前三个阶段的集大成者。 它把提示词、上下文、围栏全部融合进了文件系统。
但问题来了——就像 EvoMap 那篇论文揭示的:完整,不一定等于有效。
EvoMap 的发现:Skill 输在哪里?
EvoMap 团队在论文《From Procedural Skills to Strategy Genes》里,拆解了一个更深层的问题:为什么写得越完整,效果反而越差?
拆解 1:Skill 的有用信号是稀疏的
他们把一个完整 Skill 包的各个子章节逐一剥离,看哪一段在起作用:
结果:只有 Workflow 一段在认真起作用。Overview 反而是全文最大的负贡献。 |
Skill 的有用信号集中在很小一段程序性内容里,其余大量"为人类可读性服务"的材料——overview、error handling、API notes、examples——反而稀释甚至污染了控制信号。
模型不是在"读"一份文档,而是在有限的推理预算里寻找:下一步策略是什么?哪些行为必须避免?什么约束优先级最高?
对人类工程师来说,完整性意味着安全感。但对模型来说,完整性意味着信号被稀释、重点被冲淡、控制被背景材料淹没。
拆解 2:剪短也没用,关键在于"结构"
最容易冒出的反驳是:Gene 赢,不就是因为它短吗?
论文把 Skill 的有效部分截短到和 Gene 一样的 230 token,结果:
预算完全相同——Gene 仍然碾压。剪短确实让 Skill 不再倒扣分,但它怎么剪都打不到 Gene 的高度。
更进一步,他们做了渐进式构造,看 Gene 内部哪一层在起作用:
关键词 + 摘要 → 回到无指导基线关键词 + 摘要 + 策略 → 表现拔高 |
同样的字数,组织成"摘要"没用,组织成"策略"才有用。
Gene 不是更短的 prompt,是不一样形态的对象。决定模型行为的是控制结构,不是 token 多少。
拆解 3:失败经验的最佳形态,不是日志,是警告
所有做 Agent 系统的人都在面对一个问题:失败该怎么存?
长 trajectory?Reflection summary?Error log?
论文跑了两组对照实验。
第一组:把失败放进不同载体
失败往 Skill 或自由文本里塞,全部低于无指导基线。 |
第二组:失败和策略以什么形态混合
最强的不是"失败 + 策略"混合体,也不是"策略 only",而是 failure warnings only——把失败蒸馏成一句句独立的"AVOID xxx"。 |
真实的 AVOID 示例(来自 UV-vis 谱学场景):
AVOID 把 min_distance 当成波长值传给 scipy.signal.find_peaks,要先转成采样点单位AVOID 把 peak_widths 的原始输出直接当 FWHM 上报,要先换回波长单位
失败经验的累积应该是选择性压缩,不是加法式堆叠。
Gene 是什么:一个最小可验证工件
回到那个最朴素的问题:一个 Gene 长什么样?
下面是论文中 UV-vis 场景的真实注入示例:
|
Domain keywords: uv-vis, peak detection, FWHM, unit conversionSummary: Detect peaks and compute wavelength-domain peak properties correctlyStrategy: 1.Detect peaks with prominence-based criteria 2.Convert min_distance into sample-index units before peak detection 3.AVOID: Report FWHM only after converting peak_widths outputs back to wavelength units |
约 230 token,5 个段落。
它的对照物是同一份经验的 Skill 包——约 2,500 token,包含 overview、workflow、pitfalls、API notes、examples、scripts 等子章节。
两者在同一套实验管线里,使用同一个 systemInstruction 注入槽和同一套 sandbox 评测脚本——控制条件完全一致,差别只在于"这一段被注入的内容长什么形状"。
Gene 的四层结构
字段 |
作用 |
keywords |
触发信号,支持子串匹配、正则、多语言别名 |
summary |
一句话概括这个经验管什么 |
strategy |
有序的可执行步骤——这是决定效果的核心层 |
AVOID |
蒸馏过的失败警告,独立成句 |
在 GEP 协议(Gene Evolution Protocol)层面,Gene 进一步被规范化为带 asset_id、schema_version、signals_match、constraints、validation 等字段的可校验对象——可以被匹配、替换、修订、组合,而不是停留在"一段格式好看的 prompt"。
GEP 协议:让经验变成可进化的对象
Gene 最绝的一点,是没有把"经验对象"局限在一个讨巧的 Prompt 技巧上,而是直接杀到了协议层。
GEP 协议的六阶段循环,用大白话说:
|
1.蒸馏:把过去的失败、成功、修复路径浓缩成 Gene 2.扫描:新任务进来,Scan 上下文,匹配最相关的 Gene 3.注入:当 System Instruction 注入 4.执行:模型干活 5.记录:结果以 Event 形式写回 6.进化:触发 Gene 的 Validate / Mutate / Solidify |
整个过程在不更新基模参数的前提下,让 Gene 池持续进化。
数据说话
EvoMap 把 Evolver 拉到 CritPt(前沿物理科研动态数据集)上跑端到端结果:
实验 |
结果 |
Evolver (Gemini 3.0 基模 A) |
9.1% → 18.57%,+9.47pp |
Evolver (Gemini 3.1 基模 B) |
17.7% → 27.14%,+9.44pp |
不更新一个参数、不加任何 SFT/RL、纯靠经验对象层的进化——同一基模直接被抬升近 10 个百分点。同时,token 消耗从 100 美金降低到不到 1 美金。
把脉络串起来:我们到底走过了什么路?
|
1. 提示词工程 •把 AI 当翻译官 •核心:说话技巧 •局限:模型一更新,一切重来 |
2. 上下文工程 •把 AI 当研究员 •核心:信息架构 •局限:上下文窗口再大也有上限 |
|
3. 围栏工程 •把 AI 当员工 •核心:规则设计 •局限:规则太多变成新版"长 prompt" |
4. 文件即人格 •把 AI 当存在 •核心:关系塑造 •局限:完整 ≠ 有效,信号会被稀释 |
|
5. Gene / 策略基因 •把 AI 当进化体 •核心:控制密度 + 可验证 + 可进化 •突破:经验不再是文档,是对象 |
这条演进线有一个清晰的内在逻辑:
从"说什么" → "给什么" → "管什么" → "塑造谁" → "进化成什么"。
每一步都在回答同一个问题的更深版本:经验回到模型那一刻,应该长什么形状?
给实践者的三件事
如果你正在做 Agent 开发、写 Skill、调 prompt,这三件事可以明天就开始做:
1. 把"写给同事的文档"和"注入给模型的控制信号"分开
人类需要完整的 README。模型只需要 keywords + strategy + AVOID。两者不需要是同一个文件。
2. 失败经验不要原样存,蒸馏成 AVOID 警告
不是 "trajectory log",不是 "reflection summary",而是一句句独立的、可执行的、"别这样做"的警告。
3. 经验对象要能被匹配、修订、组合
如果一份经验只是躺在文档里,它就只是文档。如果它能被检索、被验证、被替换、被组合,它就是可进化的资产。
最后一句
当整个 AI 圈都在为了更长的 context、更花哨的 RAG、更复杂的 memory 系统无脑卷生卷死时,EvoMap 的论文轻巧地给出了一条朴素的线索:
让 Agent 持续变强的捷径,不是把提示词写得更完整,而是把执行经验做成一个更紧凑、更可控、更可进化的对象。
我们花了三年时间,终于从"教 AI 说话"走到了"教 AI 进化"。
Agent 时代下一阶段的竞争,不仅是更大的模型和更长的上下文,更是谁能率先针对智能算力的利用效率找到更好的通解。
原文涉及 EvoMap × 清华大学论文 arXiv:2604.15097
github.com/EvoMap/evolver
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-11
AI时代产品范式和工作范式已彻底改变
2026-05-09
Goal Mode 的 Prompt 怎么写才有效:任务拆分、约束条件与失败模式分析
2026-05-09
Anthropic 工程师发文:别用 Markdown 了,HTML 才是 AI 的终极语言!
2026-05-06
Claude Code 拥有 50 多个命令。大多数开发者只用到 5 个
2026-05-05
主流大模型系统提示词对比分析
2026-05-02
Codex 从入门到精通
2026-04-28
别再写 Prompt 了:Spec Mode 才是下一代 AI 编程范式
2026-04-25
我逆向了 329 条 GPT-Image2 提示词模板,全部开源!
2026-02-26
2026-02-24
2026-03-07
2026-03-13
2026-03-18
2026-02-24
2026-04-21
2026-02-28
2026-02-12
2026-02-12
2026-04-14
2026-02-28
2026-02-12
2026-02-12
2026-02-08
2026-02-05
2026-02-05
2026-01-23