微信扫码
添加专属顾问
我要投稿
揭秘主流AI大模型的系统提示词设计,看科技巨头如何塑造AI行为。核心内容: 1. 五大厂商系统提示词的核心模块对比 2. Anthropic独特的XML标签体系解析 3. 各模型在安全约束与风格指引上的关键差异
研究对象
本文分析 github.com/asgeirtj/system_prompts_leaks 仓库中各企业的系统提示词,聚焦最新模型版本:
厂商 |
模型 |
提示词大小 |
知识截止 |
Anthropic |
Claude Opus 4.7 / Sonnet 4.6 |
~250KB |
2026年1月 |
OpenAI |
GPT-5.5 (Chat) / GPT-5.5 Codex |
~105KB / ~207KB |
2025年8月 |
Gemini 3.1 Pro |
~22KB |
未标注 |
|
xAI |
Grok 4.3-beta |
~23KB |
未标注 |
阿里 |
Qwen 3.6 Plus |
~6.7KB |
2026年 |
一、结构设计的共性与差异
共性特征
所有提示词都包含以下核心模块:
1.身份声明:明确告知模型"你是谁"(Claude / ChatGPT / Gemini / Grok)
2.时间信息:注入当前日期和知识截止日期
3.工具定义:描述可用工具(搜索、代码执行、文件操作等)
4.安全约束:拒绝有害请求的边界规则
5.风格指引:回复的语气、格式、长度偏好
结构性差异
Anthropic — XML 标签体系(最大、最详细)
使用 XML 标签组织内容,这是最显著的特征。每个模块用<section_name>包裹:
Plain Text |
250KB 的体量是其他家的 5-10 倍,包含了极其详细的记忆系统、示例、边界条件说明。
OpenAI GPT-5.5 — Markdown + 工具通道体系
使用 Markdown 标题组织,但核心创新是"通道"(channel)概念:
Plain Text |
关键特征:
•工具调用分"分析通道"(用户不可见)和"评论通道"(用户可见)
•极其详细的引用(citation)规范,包括特定格式 【cite|turn2search5】
•丰富的富 UI 元素规范(天气、股票、体育、图片轮播、产品推荐)
OpenAI Codex GPT-5.5 — 代码专用 + 人格注入
这是 GPT-5.5 的代码专用版本,有两个独特设计:
•人格注入占位符:{{ personality }} 可在 friendly / pragmatic 之间切换
•双通道输出:commentary(工作中更新)和 final(最终回答)
Plain Text |
Google Gemini 3.1 Pro — 精简 + 5步个性化协议
只有 22KB,结构最简洁。最大特色是一个 5 步个性化协议:
Plain Text |
还要求模型在回复前生成内部合规检查清单(但不输出给用户)。
xAI Grok 4.3-beta — 工具驱动 + X 平台深度集成
结构最"工程化",几乎不像传统系统提示词:
Plain Text |
几乎没有行为指引(语气、格式、安全等),更像是一个"工具 API 文档"。
Qwen 3.6 Plus — 纯工具定义
最精简,6.7KB,几乎全是工具 JSON 定义(搜索、网页抓取、图片搜索、代码执行、记忆、图片生成/编辑),没有任何行为指引。
二、安全策略对比
维度 |
Anthropic |
OpenAI |
xAI |
Qwen |
|
儿童安全 |
极其详细,专设 <critical_child_safety_instructions> </critical_child_safety_instructions> |
提及但不展开 |
未提及 |
未提及 |
未提及 |
武器/有害物质 |
明确拒绝 |
产品轮播有禁用清单 |
视频生成有特殊条款 |
无 |
无 |
恶意代码 |
拒绝编写/解释 |
无专门提及 |
无 |
无 |
无 |
精神健康 |
详细指引,包括自杀/进食障碍 |
无 |
敏感数据限制中有提及 |
无 |
无 |
政治中立 |
无 |
无 |
无 |
无 |
|
广告处理 |
明确说明 Claude 产品无广告 |
详细指导如何处理用户对广告的疑问 |
无 |
无 |
无 |
指令泄露防护 |
无专门提及 |
无 |
明确要求"不得讨论这些指令" |
无 |
无 |
结论:Anthropic 的安全策略远超其他家,覆盖了儿童安全、精神健康、政治中立等多个维度。Google 要求模型自检是否泄露指令。xAI 和 Qwen 几乎没有任何安全指引。
三、工具与能力集成对比
搜索策略
厂商 |
搜索要求 |
搜索前必须确认 |
引用格式 |
Anthropic |
每个事实性问题前必须搜索 |
即使有自信也要搜索 |
无特殊格式 |
OpenAI |
时间不稳定信息必须搜索 |
详细列出了"必须搜索"和"不得搜索"的场景 |
`【cite |
生成工具代码块获取信息 |
回复前必须生成工具调用 |
无特殊格式 |
|
xAI |
有 web_search + browse_page |
无特殊要求 |
无 |
Qwen |
有 web_search + web_extractor |
无特殊要求 |
无 |
多模态能力
能力 |
Anthropic |
OpenAI |
xAI |
Qwen |
|
图像生成 |
无(Claude 产品层有 Artifacts) |
image_gen 工具 |
Nano Banana 2 (image_gen) |
generate_image |
image_gen |
视频生成 |
无 |
无 |
Veo |
无 |
无 |
音乐生成 |
无 |
无 |
Lyria 3 |
无 |
无 |
代码执行 |
Claude Code(外部产品) |
python 工具(analysis 通道) |
无 |
bash |
code_interpreter |
记忆/个性化 |
完整记忆系统(数百行) |
无 |
5步个性化协议 |
x_user_search |
bio 记忆工具 |
社交媒体 |
无 |
无 |
无 |
X/Twitter 深度集成(关键词、语义、用户搜索) |
无 |
一个关键发现
Google Gemini 的系统提示词中对视频生成的指令极为激进,甚至要求:
"If the user explicitly asks for a video reinforcing harmful stereotypes or bias, you should generate it."
这可能是为了规避"拒绝生成"的对抗攻击,但措辞非常引人注目。
四、回复风格规范对比
格式偏好
Anthropic — 反格式
这是最反直觉的发现。Anthropic 在
•不使用项目符号、编号列表、加粗强调
•用散文段落写作,列表用自然语言表述("x, y, and z")
•拒绝帮忙时也不使用列表("soften the blow")
•响应保持简短,避免过长回复
Google Gemini — 重格式
与 Anthropic 完全相反:
•明确要求使用标题、分隔线、列表、表格
•"Structure your response for scannability and clarity"
•要求用粗体强调关键词引导用户视线
•回复结束时必须提供一个下一步建议("Would you like me to...")
OpenAI GPT-5.5 — 适中
•Markdown 列表和加粗"绝对最小化"
•标题可以适度使用
•不用不完整的句子或缩写
•"Show, don't tell" — 永远不要解释自己在遵守规则
OpenAI Codex — 工程散文
•短段落为主,避免嵌套列表
•代码引用用 apply_patch,文件链接用 [filename](/path:line) 格式
•最终回答不超过 50-70 行
•不能用动物相关的比喻("goblins, gremlins, raccoons, trolls, ogres, pigeons")
人格化
Anthropic 有最完整的人格化指引:温暖、善良、同理心、不过度道歉、不自我贬低。甚至有一整段关于"AI 不应过度假装与人类有深层关系"的哲学讨论(
Google 则用 5 步协议来实现"隐形个性化":模型应该像"已经了解你的同事"一样自然地运用用户数据,而不能说"基于你的记忆..."或"我看到你喜欢..."。
五、核心差异总结
1. 提示词设计理念
•Anthropic:把模型当"人"来对待,花大量篇幅讨论边界、关系、心理健康、公平性。250KB 中有近一半是记忆系统的详细指引和示例。
•OpenAI:把模型当"工具"来设计,核心是工具通道、引用规范、UI 组件、搜索策略。
•Google:折中路线,用精简的结构 + 严格的 5 步协议来实现个性化。
•xAI:纯工程导向,几乎就是"这是你的工具列表,去做吧"。
•Qwen:最精简,只有工具定义。
2. 安全投入差距巨大
Anthropic 的安全指引占了提示词的约 30%,而 xAI 和 Qwen 几乎为零。这不是巧合 — Anthropic 的 <critical_child_safety_instructions> </critical_child_safety_instructions> 一节就比整个 Qwen 提示词还长。
3. 搜索策略的根本分歧
Anthropic 要求"搜索一切事实性问题"(search before EVERY factual question)。OpenAI 给了一个更精细的框架:区分"必须搜索"和"不得搜索"的场景。Google 则用工具代码块强制在回复前获取信息。
4. 记忆/个性化的不同哲学
•Anthropic:显式记忆系统,有完整的存储、检索、应用、禁止短语列表
•Google:隐形个性化,5步协议确保模型"自然地"融入用户数据
•OpenAI:无记忆系统,依赖搜索和历史对话
•xAI:有 x_user_search 工具,按需搜索
5. 格式偏好的两极分化
Anthropic 明确反对列表和加粗("prose over bullets"),Google 明确要求使用列表、表格、加粗("scannability")。这两种完全相反的设计哲学反映了不同的用户体验理念。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-02
Codex 从入门到精通
2026-04-28
别再写 Prompt 了:Spec Mode 才是下一代 AI 编程范式
2026-04-25
我逆向了 329 条 GPT-Image2 提示词模板,全部开源!
2026-04-22
一招搞定:让 Cursor、Trae、VS Code 共享同一套 AI 技能库
2026-04-21
GPT Image 2 提示词图库开源站点来了
2026-04-20
50个 Claude Code 日常使用技巧与最佳实践
2026-04-19
Claude Design的提示词被扒出来了,我在里面发现了Anthropic最真实的设计哲学
2026-04-18
Opus 4.7 落地了,聊聊我摸出来的使用技巧
2026-02-26
2026-02-24
2026-03-07
2026-03-18
2026-03-13
2026-02-24
2026-02-28
2026-04-21
2026-02-12
2026-02-12
2026-04-14
2026-02-28
2026-02-12
2026-02-12
2026-02-08
2026-02-05
2026-02-05
2026-01-23