2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

LangAlpha是如何在架构上实现Harness 和 Loop Engineering

发布日期:2026-06-30 10:49:49 浏览次数: 1528
作者:金灵AI-专业投研AI智能体

微信搜一搜,关注“金灵AI-专业投研AI智能体”

推荐语

LangAlpha 在 AI Agent 工程实践中,通过创新的 PTC 模式和中间件栈设计,实现了从单次执行到自运转循环的架构跃升。

核心内容:
1. 剖析 AI 工程四层栈与 Loop Engineering 的核心价值
2. 详解 LangAlpha 的 PTC 模式如何革新工具调用范式
3. 介绍支撑系统稳定运行的 25 层中间件栈设计

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
Anthropic 工程师提出了 Loop Engineering 方法论,定义了 AI 工程实践的第四层栈。 LangAlpha 作为一个面向金融的 AI Agent 平台,分享一下我们是如何在在Agent工程上的思考。
一、背景:AI 工程的四层栈

2026 年 6 月,Peter Steinberger(OpenClaw 作者)、Boris Cherny(Claude Code 负责人) 和 Addy Osmani(Google Chrome 团队)三位顶级工程师在一周内同时点燃了一个概念—— Loop Engineering。三人的共识指向同一个转变: 设计的对象从"Agent 的单次行为"转变为"驱动 Agent 的完整系统"

这并非取代已有的 Prompt Engineering、Context Engineering 和 Harness Engineering, 而是在它们之上叠加第四层。每一层向上,关注的单元放大一号:

层级
名称
关注单元
核心新增能力
1Prompt Engineering
一句话
指令的精确编写
2Context Engineering
一个窗口
上下文组装与管理
3Harness Engineering
一次运行
工具-模型-基础设施的耦合设计
4Loop Engineering
一个自运转循环
定时运行 · 派生助手 · 自我喂养

二、Harness Engineering:一次运行的设计

Harness Engineering 关注的是"一次 Agent 执行"这个单元——模型如何调用工具、 工具如何返回结果、中间件如何编排、基础设施如何隔离。 它不是写一个提示,而是设计承载提示、工具和模型的执行框架本身。 LangAlpha 在这层的设计由四个核心支柱构成。

2.1 PTC 模式:代码作为工具调用的中间层

传统的 AI Agent 通过 JSON 格式的工具调用与数据交互: 模型输出一个 JSON blob,后端解析后执行函数,再将原始数据塞回 context window。 这种做法有两个根本问题:一是大量原始数据涌入上下文,迅速消耗 token 预算; 二是 LLM 无法对数据做真正的计算——它只能"读"数据,不能"操作"数据。

LangAlpha 的 PTC(Programmatic Tool Call) 颠覆了这一范式。 其核心流程是:

这一设计的工程含义是深远的:LLM 充当"架构师"而非"搬运工"。 它写代码决定要拿什么数据、如何处理,但处理过程在沙箱中完成。 这是 Generator / Evaluator 分离的第一层体现—— LLM 生成方案,沙箱运行时验证结果。代码执行成功与否 (stdout / stderr / 文件产物)是客观事实,不依赖 LLM 的自我评价。

2.2 25 层中间件栈:约束的组合

LangAlpha 的 Agent 并非一个手写的 LangGraph StateGraph。 它通过 deepagents 库的 create_agent() 创建, 包裹在一个约 25 层的中间件链中。这个栈在 src/ptc_agent/agent/agent.py 中组装:


中间件
职责
注释
工具参数解析
将 LLM 输出的工具调用参数标准化
Harness 入口
受保护路径
阻止 Agent 访问 /etc、/proc 等系统目录
安全约束
错误处理
捕获工具调用异常,优雅降级
容错
泄漏检测
检测 API 密钥、密码等敏感信息泄露
安全
产物发射
文件写入/图表生成后通知前端
可观测性
多模态支持
处理图片、PDF 等非文本输入
输入扩展
技能加载
运行时加载预构建 Skills(dcf-model、comps-analysis 等)
能力注入
引导
系统提示词注入与工作区上下文
Context Engineering
子代理分发
BackgroundSubagentOrchestrator 协调并行子代理
Loop Engineering 入口
HITL
人类检查点——用户可在工作流中途介入
控制保留
上下文压缩
超过 120K token 阈值时自动压缩历史消息
Token 管理
模型重试/回退
瞬时错误自动重试,故障转移到备用模型
弹性
提示缓存
缓存系统提示以减少重复 token 消耗
成本优化
工作区注入
注入 agent.md + workspace 上下文
持久化感知
记忆感知
从 Memory/Memo 存储注入持久知识
跨会话状态

值得注意的是中间件的分层与解耦:安全约束(路径保护、泄漏检测) 在工具调用层;能力注入(技能、子代理)在编排层; 持久化感知(工作区注入、记忆)在上下文层。 每层独立演进,互不阻塞。这体现了 Stripe 架构的核心主张—— 可靠性来自约束的质量,而非模型的大小

2.3 Daytona 沙箱:结构化的执行环境

沙箱生命周期


自动停止
1 小时
无活动后
自动归档
7 天
快速重启
自动删除
90 天
GC 回收
快照
基于 config hash 版本化
Python
3.12+

工作区目录结构

/home/workspace/
├── agent.md          # 持久化工作区指令
├── work/
├── results/          # 最终报告
├── data/             # 共享数据集
├── tools/            # MCP Python 包装器
└── .agents/
    ├── user/         # 用户配置 + 记忆
    └── skills/       # 技能模块

每个工作区对应一个独立的 Daytona 沙箱 VM。 work/ 的任务隔离目录确保了并发子代理之间互不干扰—— 这正是 Loop Engineering 中 Worktrees 组件的实际落地。 沙箱快照基于 agent_config.yaml 的哈希值版本化, 确保工作区重建时依赖一致。

2.4 多模型弹性层

LangAlpha 通过一个提供商无关的模型层抽象了多个 LLM 后端: OpenAI (o3/o4-mini, GPT-4o)、Anthropic (Claude Sonnet/Opus 4)、 Google (Gemini 2.5)、DeepSeek (V3/R1)、Qwen、Kimi、Doubao、GLM、MiniMax 等。 两层弹性机制:

  • 自动重试
    :瞬时错误自动重试
  • 故障转移
    :通过 llm.fallback 配置链式降级到备用模型
  • 推理级别标准化
    :不同提供商的 reasoning_effort 自动映射
  • 双模式
    :PTC 模式做深度多步分析,Flash 模式做快速对话

三、Loop Engineering:自运转循环的设计

Loop Engineering 的定义是:替换你自己作为给 Agent 下指令的人, 转而去设计一个能自动完成这件事的系统。它的三个核心能力是 定时运行派生助手自我喂养。 Anthropic 论文定义了 Loop 的五个动作和六个组件。 下面逐一映射 LangAlpha 的实现。

3.1 五动作的完整映射


Loop 动作
LangAlpha 实现
代码/模块
防失败模式
🔍 Discovery
仪表盘系统(市场指数、新闻简报、自选股作为代理上下文);预构建发现技能(idea-generation、morning-note、catalyst-calendar)
pages/Dashboard/
skills/
防 Blind Loop
 仪表盘预设 + 技能模板确保每次触发有明确目标
🤝 Handoff
BackgroundSubagentOrchestrator 通过 Task() 产生隔离子代理;5 种内置子代理 + 用户自定义;Steering Queue 支持运行中指令
src/ptc_agent/agent/subagents/
agent_config.yaml
防 Tangled Loop
 子代理隔离上下文,互不污染;update/resume 机制
✅ Verification
PTC 天然分离(LLM 写代码 / 沙箱执行);Flash 快速验证;确定性路径门控
agent_config.yaml → filesystem
Daytona runtime
防 Nodding Loop
 代码执行结果是客观事实,非 LLM 自我评价
💾 Persistence
agent.md 工作区指令;Memory(用户级 + 工作区级);LangGraph Checkpointer;SSE 会话回放
MemoryContextMiddleware
CheckPool
sse_events
防 Amnesiac Loop
 多层持久化,重启后无缝接续
⏰ Scheduling
Automations 系统 CRUD + 模板库;Compaction 中间件自动触发
pages/Automations/
agent_config.yaml → compaction
防 Manual Loop
 自动化是一等公民,模板降低调度门槛

3.2 六组件的工程落地

⚡ Automations

pages/Automations/ 定时研究 CRUD,模板库(Mag 7 财报前等),skills/automation/

🌲 Worktrees

Daytona 沙箱每工作区独立 VM,work/ 任务隔离,子代理隔离上下文

🧩 Skills

20+ 预构建技能(dcf-model、comps-analysis、earnings-preview 等),SkillsMiddleware 运行时加载

🔌 Connectors

10+ MCP 服务器(stdio/HTTP),FMP · SEC EDGAR · Polygon · Yahoo · X API · Scrapling

🤖 Sub-agents

5 内置 + 用户自定义,Task() 并行异步,update/resume 迭代,服务器重启后自动重建

🧠 Memory

用户级 + 工作区级持久记忆,Memo 存储(Markdown/PDF/CSV),LangGraph BaseStore + PG

3.3 Generator / Evaluator 分离:五层嵌套实现 ⭐

这是 Loop Engineering 方法论中最核心的设计原则。Anthropic 工程师 Prithvi Rajasekaran 的实证观察指出: "让 Agent 评判自己刚写的代码,它会自信地给出好评——即使质量平庸。" 这不是智商问题,而是结构性缺陷:Agent 的上下文里塞满了"为什么这样写"的自我说服链条, 它看到的不是结果,而是导致结果的理由。

LangAlpha 在五个不同层级上实现了 Generator/Evaluator 分离:


层级
Generator
分离机制
Evaluator
为什么有效
L1
LLM 写 Python 代码
→ 沙箱执行 ←
Python 运行时 + 文件系统
代码执行结果(stdout/stderr/文件)是客观事实,不是 LLM 自评
L2
一个子代理起草修复
→ 任务交接 ←
另一个子代理审查
隔离上下文窗口,无自我说服链
L3
PTC 模式深度分析
→ 模式切换 ←
Flash 模式快速验证
更快、更小的独立模型做快速判断
L4
LLM 文件操作
→ 硬编码门控 ←
路径白名单 + 断路器
确定性规则 Agent 无法绕过(Stripe 模式)
L5
Agent 自主运行
→ 人类检查点 ←
HITL + Steering Queue
保持"能够干预"的位置(三条纪律之三)

"可靠性来自约束的质量,而非模型的大小。"

— Stripe Minions 架构主张(每周合并 1,300+ 机器 PR)

L1 到 L4 构成了从"软约束"到"硬约束"的递进:L1 依赖运行时事实,L2 依赖隔离上下文, L3 依赖模式切换,L4 依赖不可绕过的确定性门控。L5 保留了人类的最终裁决权。 这个五层设计体现了一个关键认知:验证层的独立性必须与生成层同等级别地工程化, 而不是作为附属功能后加。

3.4 四种隐藏成本的防御体系

Loop Engineering 论文特别警示了四种静默积累的成本。 LangAlpha 在架构中为每一种都设置了防御:

📋 Verification Debt

应对:PTC 客观验证
代码执行结果非 LLM 自评;Flash 快速二次验证

📖 Comprehension Rot

应对:agent.md + 子代理视图
工作区级文档持久记录;子代理进度实时透明

🧠 Cognitive Surrender

应对:HITL + Steering
人类检查点内置在中间件中;用户可中途介入

💰 Token Blowout

应对:Compaction + PTC
120K token 阈值自动压缩;数据不入 context window

四、关键架构决策

4.1 BackgroundSubagentOrchestrator:派生助手的引擎

LangAlpha 的子代理系统通过 Task() 工具实现,这是 Loop Engineering 中"派生助手"能力的核心。关键设计决策:

并行执行,隔离上下文

子代理在独立的上下文窗口中运行,防止主代理的推理链漂移。 每个子代理返回浓缩结果给主代理,使编排器保持精简。 这解决了"一个 Agent 管太多事导致上下文膨胀"的核心问题。

update / resume:迭代而非重做

主代理可以向仍在运行的子代理发送后续指令(update), 也可以用完整上下文恢复已完成的子代理继续优化(resume)。 服务器重启时,子代理状态从 LangGraph 检查点自动重建。

4.2 Memory 与 Memo:双重持久化体系

LangAlpha 实现了两个独立的持久化存储,均基于 LangGraph 的 BaseStore API:


存储
作用域
写入者
内容
中间件
Memory
用户级 + 工作区级
Agent 自动
持久偏好、投资风格、跨沙箱知识
MemoryContextMiddleware
Memo
用户级
用户上传
研究报告 PDF、投资论文 Markdown、参考文档
MemoAwarenessMiddleware

Memory 对应 Loop 中"自我喂养"的能力——Agent 在运行中积累的知识(用户偏好、分析框架) 自动沉淀到持久存储中,下次会话自动注入。Memo 则让用户可以将外部知识注入系统。 两者共享请求作用域缓存,单轮中多次读取只命中存储一次。

"在 Loop 第一次无人值守运行前,设置单次预算、每日预算、最大重试次数。 这不是为了省钱,而是把开放式风险转化为有界风险。"

— Loop Engineering 论文,三条站立式纪律之二

4.3 Compaction:Token 爆炸的自动防御

LangAlpha 的 Compaction 中间件是 Loop Engineering 中"Token Blowout"成本管理的直接实现。 其配置精确地体现了"有界风险"原则:

compaction:
  enabled: true
  token_threshold: 120000          # 超过此阈值触发压缩
  keep_messages: 10                # 保留最后 10 条消息
  truncate_args_trigger_messages: 40  # 超过 40 条消息时截断工具参数
  truncate_args_keep_messages: 10     # 最近 10 条不做截断
  truncate_args_max_length: 2000      # 每个参数值最多 2000 字符

这个设计在"保留足够上下文让 Agent 继续工作"和"防止 token 无限堆积"之间找到了工程平衡点。 配合 PTC 模式(数据不进入 context window),LangAlpha 在多轮深度分析中能维持稳定的 token 消耗。

五、全景架构:四层栈在 LangAlpha 中的完整呈现

六、结语:终极公式的工程实践

LangAlpha 的架构设计体现了这个公式的三个关键维度:

第一,系统的完整性。 五个 Loop 动作(Discovery → Handoff → Verification → Persistence → Scheduling) 在 LangAlpha 中都有明确的代码级对应,不是概念上的"可以参考"而是工程上的"已经落地"。 六个组件也没有遗漏——从 MCP 服务器集群(Connectors)到 Memory/Memo 双存储(Memory), 从 Skills 目录(Skills)到 Daytona 沙箱(Worktrees),再到 Automations 页面(Automations) 和子代理注册表(Sub-agents)。

第二,约束的层次化。 Generator/Evaluator 分离不是单一机制,而是五层嵌套——从最软的"依赖运行时事实"(L1 PTC) 到最硬的"确定性门控"(L4 路径白名单)再到"人类保留最终否决权"(L5 HITL)。 这个层次化设计意味着:即使某一层的验证被绕过,下一层仍然在起作用。

第三,成本的自觉防御。 LangAlpha 对 Loop 的四种隐藏成本(Verification Debt、Comprehension Rot、 Cognitive Surrender、Token Blowout)都设置了对应的架构防御——不是事后补救, 而是作为中间件栈和基础配置的内置约束。Compaction 中间件的三层截断策略 (全文压缩 / 参数截断 / 预算约束)尤其体现了"把开放式风险转化为有界风险"的工程思维。

对于正在构建金融Agent 系统的工程师而言,LangAlpha也许能够提供一些思考的帮助。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅