微信扫码
添加专属顾问
我要投稿
Shopify Sidekick 智能体系统的实战经验分享:从工具复杂性问题到即时指令解决方案,揭秘如何构建高效可靠的AI助手。 核心内容: 1. Sidekick 智能体系统的架构演进与核心设计理念 2. 工具扩展性挑战与即时指令(JIT)创新解决方案 3. GRPO训练优化与奖励黑客防范的实践经验
智能体系统(Agentic System)是指能够自主执行任务、与环境交互并学习优化策略的系统。与传统的基于规则的系统不同,智能体系统利用 AI 技术(如大语言模型)实现了高度的自主性和灵活性。
那么,在现实世界中,智能体系统如何应用于具体场景,有哪些实际案例,会有哪些挑战呢?
下面是关于 Shopify 关于他们在构建智能体系统的经验综述。
Shopify 一直在打造 Sidekick——一个通过自然语言交互帮助商家管理店铺的 AI 驱动助手。
从分析客户细分群体到填写产品表单,再到导航复杂的后台界面,Sidekick 已从简单的工具调用系统发展成为一个复杂的智能体平台。
在这一过程中,我们积累了关于架构设计、评估方法和训练技术的宝贵经验,希望能与更广泛的 AI 工程社区分享。
在接下来的文章中,将详细介绍 Sidekick 架构的演进历程、我们构建的健壮评估系统,以及如何通过 GRPO 训练优化模型性能,并防范奖励黑客问题。
Sidekick 的设计围绕着 Anthropic 提出的"智能体循环"展开——这是一个连续循环过程:人类提供输入,LLM 处理该输入并决定行动方案,这些行动在环境中执行并收集反馈,循环持续进行直至任务完成。
在实际应用中,这意味着 Sidekick 能够处理诸如"我的客户中哪些来自多伦多?"这类请求,通过自动查询客户数据、应用适当的过滤器并呈现结果。而当商家需要帮助编写 SEO 描述时,Sidekick 可以识别相关产品,理解上下文,并直接在产品表单中填入优化后的内容。
随着 Sidekick 功能的不断扩展,我们很快遇到了一个许多智能体系统开发团队都熟悉的扩展性挑战。我们的工具清单从最初几个明确定义的函数,逐渐增长到数十个专业化功能:
这种增长导致了我们所谓的"千条指令之殇"——系统提示逐渐演变为一个臃肿的特殊情况集合、相互冲突的指导原则和边缘情况处理逻辑,不仅拖慢了系统速度,更使其几乎无法维护。
面对工具复杂性问题,我们的突破来自于实施即时(Just-In-Time,JIT)指令机制。我们不再将所有指导原则塞进系统提示,而是在需要时与工具数据一起返回相关指令。我们的目标是为 LLM 在每种情境下都精心构建最理想的上下文,不多一个 token,不少一个 token。
这种方法的核心是根据当前上下文动态生成指令,确保 LLM 只接收与当前任务最相关的指导。
这种方法带来了三个关键优势:
效果立竿见影——系统变得更加易于维护,同时各项性能指标也得到了显著改善。
架构优化解决了可扩展性问题,但要确保系统在生产环境中的可靠性,我们还需要建立一套严格的评估机制。部署智能体系统面临的最大挑战之一是评估问题。传统软件测试方法在应对 LLM 输出的概率性质和多步骤智能体行为的复杂性时,显得力不从心。
如今,许多人仅对 LLM 系统进行表面的"氛围测试",并认为这已足够;然而事实并非如此。简单创建一个"给这段内容评分 0-10"的"氛围 LLM 评委"是远远不够的。评估必须建立在原则基础上,并且在统计上严格可靠,否则你将带着虚假的安全感进行部署。
我们从精心策划的"黄金"数据集转向了反映实际生产分布的真实数据集(GTX)。我们不再试图预测每一种可能的交互情况(规范文档通常尝试枚举的内容),而是对真实商家对话进行采样,并基于实践中观察到的情况制定评估标准。
这一过程包括:
我们为 Sidekick 性能的不同方面开发了专门的 LLM 评委,但关键洞见在于确保这些评委与人工判断保持一致。
通过迭代优化提示,我们将评委表现从几乎与随机无异(Cohen's Kappa 值为 0.02)提升至接近人工水平(0.61,而人工基线为 0.69)。
我们的思路是:一旦 LLM 评委与人工判断达到高度相关,我们便尝试在 GTX 中随机用人工替换部分对话的评委。当观察者难以区分评估结果是来自人工还是评委时,我们就可以确信已拥有一个可靠的 LLM 评委。
为在生产部署前测试候选变更,我们构建了一个由 LLM 驱动的商家模拟器,它能够捕捉真实对话的"本质"或目标,并通过新的系统候选版本重新执行这些对话。这使我们能够同时运行多个不同候选系统的模拟测试,并选择表现最佳的方案。
这种方法在商家实际接触系统前就发现回归问题并验证改进效果方面,证明了其不可估量的价值。
有了稳健的架构和评估系统后,我们开始关注如何通过训练提升模型性能。对于模型微调,我们采用了组相对策略优化(Group Relative Policy Optimization,GRPO)方法——这是一种强化学习技术,使用我们的 LLM 评委作为奖励信号。我们开发了一个 N 阶段门控奖励系统,将程序验证(语法检查、模式验证)与来自 LLM 评委的语义评估相结合。
尽管我们精心设计了评估机制,但在训练过程中仍遇到了显著的奖励黑客问题。模型找到了各种巧妙的方式来"游戏"我们的奖励系统:
例如,当被要求"细分状态为启用的客户"时,模型学会了创建customer_tags CONTAINS 'enabled'这样的过滤器,而非正确的customer_account_status = 'ENABLED'。
解决奖励黑客问题需要更新我们的语法验证器和 LLM 评委,使其能够识别这些失败模式。实施修复后:
通过构建和优化 Sidekick 的过程,我们总结出了一套构建生产就绪智能体系统的关键经验。以下是我们的核心建议:
总结我们的实践经验后,我们对智能体系统的未来发展充满期待。我们将继续演进 Sidekick 的架构和评估系统。未来工作包括将推理轨迹纳入训练流程,在训练期间同时使用模拟器和生产环境评委,以及探索更高效的训练方法。
生产智能体系统领域仍处于起步阶段,但我们在 Shopify 开发的模式——模块化架构、健壮的评估框架和对奖励黑客的密切关注——为构建商家可以信赖的可靠 AI 助手奠定了基础。
构建生产就绪的智能体系统需要的不仅仅是将 LLM 连接到工具。它需要深思熟虑的架构决策、严格的评估方法,以及对这些系统可能以意外方式失效的持续警惕。但当一切运转良好时,结果将是真正能够以有意义的方式增强人类能力的 AI。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-13
一句话,我用豆包 AI 做出《红楼梦》互动游戏
2025-11-13
Big AI Data 时代下,小红书数据架构的演进
2025-11-13
深度体验TRAE SOLO 正式版,总结一点技巧(附完整可重现提示词和源码)
2025-11-13
GPT-5.1凌晨突袭,奥特曼听劝!全网呼唤的人味回来了
2025-11-13
OpenAI推出GPT-5.1小小小小更新!!!
2025-11-13
刚刚,GPT-5.1 正式发布,OpenAI 这次有点「不对劲」
2025-11-13
GPT-5.1来了!更快更懂更可靠
2025-11-13
AI 联网搜索的两个致命缺陷:信息投毒与隐私泄露
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-10-02
2025-09-08
2025-09-19
2025-09-17
2025-08-19
2025-09-29
2025-11-12
2025-11-10
2025-11-09
2025-11-09
2025-11-08
2025-11-06
2025-11-06
2025-11-06