被 Y Combinator 看中的 AI 公司，如何打造生产级提示词，实现 46% 工单自动化

发布日期：2025-06-09 13:57:21 浏览次数： 2522

作者：Mindstorms

微信搜一搜，关注“Mindstorms”

大多数人对 AI 提示词的理解，还停留在和 AI ChatBot 聊天的水平。但真正的商业 AI 系统，用的是完全不同的方法。

Y Combinator S24 投资的 Parahelp^[1] 就是个典型例子。Ta 们帮 AI 视频创作平台 Captions 搭建客服系统，7 天就完成部署，实现了 46% 的客服工单自动化处理^[2]。同时客户满意度提升了，响应时间缩短了，处理成本也降低了。Captions 的客户体验负责人 Eli Winderbaum 表示，客户基本分辨不出这是 AI 在回复。

这背后的秘密，就藏在 Parahelp 那几百行提示词^[3]里。为了优化这些提示词，Ta 们投入了数百小时反复打磨。Y Combinator 的几位重要 Partners 在播客中专门讨论了 Parahelp 的提示词设计方法^[4]，将其作为 AI 工程实践的典型案例。Parahelp 服务过 Perplexity、Framer、Replit、ElevenLabs 等知名公司，这些实践经验让我们有机会窥一窥玩具提示词和生产级提示词的差异究竟在哪儿。

核心挑战：在不确定中保持可靠

设计生产级提示词面临的首要挑战是信息的不完整性。在 Parahelp 的客服场景中，完整的提示词包含约 1.5K 词元（token）的动态信息——消息历史、历史案例经验、公司政策等。模型可以访问一些相关信息，但很少是全部信息。

这种现实约束要求提示词必须明确处理不确定性。Parahelp 的提示词会反复强调这样的约束：

确保你的描述永远不假设任何信息、变量或工具调用（tool call）结果，即使你对工具调用结果有很好的想法
确保你的计划永远不包括或猜测政策文档中没有明确说明的信息

Parahelp 团队展示的提示词对 AI 的规划过程有极其详细的指导：

### 如何规划
- 规划下一步时，确保它只是下一步的目标，而不是工单或用户的总体目标。
- 确保计划始终遵循# 客户服务代理政策文档的程序和规则

### 如何创建步骤
- 步骤将始终包括行动的名称（工具调用）、行动描述和行动所需的参数。它还将包括特定行动的目标。

这些指令不是简单的建议，而是严格的操作规范。每一条都针对 AI 在真实环境中可能出现的具体错误模式。

复杂决策的结构化建模

真实的商业场景涉及复杂的条件分支。以退款处理为例，系统必须考虑购买日期、国家、计划类型等所有路径，因为退款规则根据这些参数而变化。

Parahelp 引入了"模型 RAM（工作记忆）"概念——模型能够可靠处理的路径数量。当决策分支超出模型处理能力时，团队通过架构设计来分解复杂性，而不是强行增加提示词复杂度。

一个重要发现是：o1-medium（现在使用 o3-medium）是第一个在这类提示词评估中表现良好的模型。这表明生产级提示词对模型能力有特殊要求，不是所有模型都能胜任这种复杂的条件推理任务。

这种规划提示词面临两个核心难点：

1. 完整的提示词包含约 1.5K 词元的动态信息...让模型理解它不应该假设自己掌握了完整信息（或预判工具调用会返回什么数据）是很困难的。

2. 计划必须包括基于工具调用返回内容和不同结果规则的所有潜在路径。对于退款请求，计划必须考虑基于购买日期、国家、计划类型等的所有路径。

这两个挑战精确地概括了生产级 AI 系统面临的核心困境：在信息不完整的情况下进行复杂的多路径决策。

为应对这种挑战，Ta 们采用变量引用系统：<> 表示工具调用结果，{{}} 表示特定政策。这样，模型可以在不需要工具输出的情况下跨多个工具调用进行规划。

这套系统对步骤创建有极其详细的要求：

更重要的是，提示词对 AI 的思维过程进行严格约束：

- action_name 应该始终是有效工具的名称
- description 应该是为什么需要该行动的简短描述、要采取的行动描述以及该行动需要的其他工具调用的任何变量
- 确保你在回答问题/故障排除步骤的描述中始终强调

技术实现：XML 结构与条件逻辑

Parahelp 的方案大量使用 XML 结构化语法。o1/o3 是最重要的突破，其次是使用带条件的 XML if 块。这使模型更严格，但表现更好是因为它利用了模型从预训练中获得的编程逻辑能力。

一个关键设计决策是禁用 else 语句：故意不允许模型使用 'else' 块，而只使用 'if' 块。这要求模型为每个路径定义明确的条件，这种设计在评估中显著提高了性能。

以下是一个完整的计划示例（见附 1），展示了这种结构化方法的实际应用：

这个示例完美展示了企业级提示词的几个关键特征：多层嵌套的条件逻辑、明确的工具调用、变量引用系统（< helpcenter_result >和 {{troubleshooting_info_name_from_policy_2}}），以及每个分支的明确条件定义。

值得注意的是，这类示例的设计理念强调：

重要：这个计划示例只是为了让你了解如何构建你的计划...它不是严格的规则或你应该如何构建每个计划的方式——它使用变量名来让你了解如何构建你的计划，思考可能的路径并使用

这种说明揭示了生产级提示词的一个重要特征：它们提供的是思维框架而不是死板的模板。AI 需要在这个框架内进行灵活的推理，而不是机械地执行固定步骤。

工程化的开发流程

与随意编写的提示词不同，生产级提示词需要严格的工程流程。Parahelp 团队的经验显示：花费数百小时优化仅仅几百行的提示词是常态。优化提示词的大部分时间实际上不是花在编写上，而是花在设计评估体系、运行测试、发现边界情况、在真实环境中验证以及基于结果进行迭代上。

这种严格的方法有明确的成功指标：客户支持有一个明确的成功指标——完整解决的工单百分比。每一次迭代都必须在这个核心指标上显示改进。

设计原则总结

从 Parahelp 的实践中可以提炼出专业级提示词的核心原则：

明确的思维顺序 - 指定模型的处理步骤
结构化格式 - 使用 markdown 和 XML 组织信息
角色定义 - 分配明确的角色（如"管理者"）
关键指令强调 - 使用"重要"和"始终"等词突出关键要求

Parahelp 的第二个提示词（管理者提示词，见附 2）进一步强化了这些设计原则。它重申了同样的结构化要求，并特别强调了一些关键约束：

- 确保你在回答问题/故障排除步骤的描述中始终强调

这种重复强调体现了企业级提示词的另一个特征：通过冗余来确保关键指令被遵循。在真实的商业环境中，AI 的一个微小偏差都可能导致客户体验的显著差异。

从聪明到可靠的转变

工业级提示词代表了从"让 AI 表现得聪明"到"让 AI 表现得可靠"的根本转变。它们通过精确的条件逻辑、变量引用系统、结构化语法和严格的迭代开发，将复杂的现实问题转化为 AI 能够一致处理的决策框架。

这种工程化的方法论不仅确保了在大规模商业应用中的可靠性，也揭示了一个更深层的洞察：真正有用的 AI 系统需要的不是更多的"智能"，而是更好的"工程"。当我们从演示转向生产、从展示转向实用时，设计思维必须从追求惊艳效果转向确保稳定性能。

附 1：规划提示词

附 2：经理提示词

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-30

Codex 权限 Profile：sandbox 不再一刀切

2026-06-30

Google 悄悄开闸：Gemini API 免费放量 1M TPM，OpenAI 和 Anthropic 开发者坐不住了

2026-06-30

我的Mac潜伏了一个月木马：AI Agent时代，真正危险的不是“手滑”

2026-06-30

AgentOps：用户快速地调教好你的Agent的关键功能。

2026-06-30

AI 应用产品评测体系完整指南

2026-06-30

AI写代码越快，程序员越危险？Codex负责人摊牌：真正难的是"删代码"

2026-06-29

17 岁高中生做了个假 AI，上线一个月获 2.8 亿次访问

2026-06-29

Loop Engineering 具体做些什么

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

Hermes Agent模型配置小白指南

2026-04-14

一文读懂DeepSeek V4：1.6万亿参数、百万上下文、华为芯片

2026-04-24

大家都在问

AgentTeams 和 Claude Tag 都进入群聊模式，是新范式还是新叙事？

2026-06-27

Agent 从 Demo 到生产级，中间到底差什么？

2026-06-26

微信在金矿上孵化了啥？

2026-06-25

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw