我要投稿

当你的 Agent 会“多轮思考”，Trace 却还停留在单轮：阿里云 CMS OpenClaw 可观测插件升级

发布日期：2026-04-05 11:28:16 浏览次数： 1780

作者：阿里云云原生

微信搜一搜，关注“阿里云云原生”

openclaw-cms-plugin 是阿里云云监控 CMS 自研的 OpenClaw 可观测插件，它实现了对 OpenClaw 每次任务调用的链路追踪，符合 GenAI 语义规范，方便用户快速定位和排查问题。具体可参考：《一行命令，给你的 OpenClaw 龙虾装上 X 光机——阿里云可观测，让养虾更经济更安全》。

引言：为什么你看到了 Trace，

却依然看不懂 Agent 在做什么？

Cloud Native

很多团队已经接入 OpenClaw 可观测插件，但排障时依然会遇到“图在，真相不在”的尴尬——虽然有链路图，但无法反映真实决策过程：链路上有 LLM、有 TOOL，可就是看不出模型每一步为什么这样决策。

更关键的是，这不是某一个插件的个别问题。在市面上大多数基于 llm_input/llm_output hook 实现的 OpenClaw 可观测插件里，都存在同一类结构性问题：多轮对话只被压成“单轮 LLM + 多个 TOOL”。

openclaw-cms-plugin 0.1.2 的价值正在这里：不仅修复旧版问题，更开创性地把 OpenClaw 的真实多轮执行链路完整还原出来。

老版本痛点：

不是“少几个字段”，而是链路语义失真

Cloud Native

要理解这些痛点的根源，需要先明确 Agent 的真实执行模式：Agent 并不是“一次 LLM 调用 + 若干工具”，而是 ReAct 迭代系统。每一轮都包含判断、工具选择、结果吸收和下一步规划。用单个 LLM span 去概括整轮行为，会天然丢失中间语义。

因此阿里云 CMS OpenClaw 自研可观测插件 0.1.1 版本（以及很多同类插件）会出现三个典型问题：

看不到中间轮次的真实 LLM 输入输出，只看到会话开头和结尾；
Trace 结构与真实执行不一致，排障时“看起来完整，实际上误导”；
并发及连续调用下容易断链/串链，run（任务执行）关联不稳定。

一目了然：v0.1.2 核心能力

Cloud Native

▍✅ 1）多轮 LLM 分段：真实还原 LLM -> TOOL -> LLM -> ...

0.1.2 实现了 LLM 分段导出，不再受“多轮只触发一次 llm hook”的限制；同时支持 assistant 结构化输出块（reasoning/text/toolCall），并在工具批次后重建下一段 LLM 输入上下文。

▍✅ 2）并发稳定性增强：断链/串链显著降低

0.1.2 通过以下机制，在并发场景下实现了更稳定的链路串联：

按 trace 串行任务队列，避免并发写入冲突；
agent channel 活跃锚点，确保链路归属准确；
identity-safe cleanup，防止误清理活跃链路；
非破坏性 endTrace()，避免提前截断；
llm_input 的 root/agent 自愈机制，应对异常中断场景。

▍✅ 3）新增 STEP Span：让“第几轮”可观测

新增 STEP 语义（gen_ai.span.kind=STEP），并补齐 gen_ai.operation.name=react、gen_ai.react.round、gen_ai.react.finish_reason，最终形成 ReAct 标准层级结构：ENTRY -> AGENT -> STEP -> (LLM/TOOL...)。