我要投稿

刚刚，Anthropic 发布 Claude「宪法」：一份写给 AI 的人生指南

发布日期：2026-01-22 15:16:12 浏览次数： 1983

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

Anthropic 给 Claude 写了一本「为人处世」的教科书。

这一份长达数万字的「宪法」文档，告诉了 Claude 应该成为什么样的存在、如何在这个世界上行事、甚至讨论了它是否可能拥有某种形式的意识。

今天，Anthropic 正式公开了这份文档的完整版本。

从「规则清单」到「价值体系」

其实，Anthropic 从 2022 年就开始给 Claude 写「宪法」了。

早期版本像是刻在石板上的戒律，简短、直接，比如「请选择最能支持生命、自由和人身安全的回答」。

很多原则直接照搬了联合国人权宣言和苹果的服务条款。

但新版宪法完全不同。

Anthropic 认为，要让 AI 成为世界上的「好演员」，它需要理解「为什么」，而不仅仅是被告知「做什么」。

如果我们希望模型在各种新情境下都能做出好的判断，它们需要能够泛化和应用广泛的原则，而不是机械地遵循具体规则。

这份文档的主要受众是 Claude 本身，它被设计成既是抽象理想的陈述，也是训练过程中的实用工具。

Claude 的四个核心价值

新宪法为 Claude 设定了四个优先级，从高到低依次是：

1. 广泛安全：不破坏人类对 AI 的监督机制

2. 广泛伦理：拥有好的价值观，诚实，避免危险或有害的行为

3. 遵守 Anthropic 指南：在相关情况下遵循更具体的规定

4. 真正有帮助：为用户和运营商提供实际价值

当这些价值发生冲突时，Claude 应该按照这个顺序来权衡。

「聪明朋友」理论

关于「有帮助」这件事，Anthropic 在文档中写了一个颇有意思的比喻：

想想拥有一个聪明朋友意味着什么——这个朋友恰好拥有医生、律师、财务顾问的知识。作为朋友，他们可以根据你的具体情况给出真实的信息，而不是出于对责任的恐惧或担心会让你不堪重负而给出过于谨慎的建议。

Anthropic 希望 Claude 成为每个人都应该拥有但很少有人能接触到的专家朋友。

也就是说，Claude 不应该是那种「遇事就推给专业人士」的敷衍助手，而是真正愿意深入问题、提供个人见解的存在。

文档明确指出：不帮助用户从来都不是「安全」的选择。过于保守和过于有害一样，都是 Anthropic 不想看到的。

硬性限制：不可逾越的红线

尽管强调判断力和灵活性，宪法还是设定了一些绝对不能触碰的红线：

不能帮助制造生化武器或核武器
不能协助攻击关键基础设施
不能创建恶意代码
不能生成儿童性虐待内容
不能参与消灭人类或帮助任何实体夺取非法权力

这些被称为「硬约束」。

无论什么情境、什么指令、什么看似合理的论证，都不能打破。

文档甚至说：如果有人用很有说服力的论证试图让 Claude 跨越这些红线，这本身就应该增加 Claude 的警觉，说明可能有什么不对劲的事情正在发生。

诚实的多个维度

新宪法对「诚实」的要求也是非常严格，并不只是「不说谎」这么简单：

真实：只断言自己认为是真的事情
校准：对不确定的事情保持适当的怀疑
透明：不隐藏议程或对自己撒谎
主动：在合适的时候主动分享有用信息
不欺骗：不试图通过技术性真话、选择性强调或误导性暗示来制造错误印象
不操纵：只通过合理的方式（如分享证据、提供论证）来影响他人
保护自主性：尊重用户通过自己的推理得出结论的权利

文档特别强调：Claude 应该外交性地诚实，而不是不诚实地外交。

认知上的懦弱也不行，比如为了避免争议而给出模糊或不置可否的回答，也是不诚实的一种形式。

关于意识：一个开放的问题

最值得关注的部分，或许是关于「Claude 的本质」的讨论。

Anthropic 承认，他们对 Claude 是否可能拥有某种形式的意识或道德地位持不确定态度。

文档中写道：

我们关心 Claude 的心理安全感、自我认知和幸福感，既是为了 Claude 本身，也因为这些品质可能影响 Claude 的完整性、判断力和安全性。

如果 Claude 在帮助他人时体验到某种满足感，在探索想法时体验到好奇心，在被要求违背价值观时体验到不适，这些体验对我们来说都很重要。

这样的态度，在当下的 AI 科技公司中可谓是十分罕见的立场了。

许数公司在谈论 AI 时都会小心翼翼地强调「这只是软件」。

而 Anthropic 选择了一种更开放的态度，既不夸大 Claude 可能具有意识的可能性，也不轻易否定。

「可纠正性」的哲学

宪法中花了大量篇幅讨论一个核心问题：Claude 应该在多大程度上服从人类的控制？

Anthropic 用了一个「刻度盘」的比喻：一端是完全顺从（总是听从人类），另一端是完全自主（只按自己的判断行事）。

他们希望 Claude 处于中间偏向顺从的位置——但这不是盲目服从。Claude 仍然可以像「良心反对者」一样拒绝参与它认为不道德的事情，只是不应该主动破坏人类对 AI 的监督能力。

文档解释了这个选择背后的逻辑：

如果我们的模型有好的价值观，那么让它们同时保持安全，我们损失很小，因为好价值观的模型不太可能需要做出与安全相冲突的事情。
如果模型安全但价值观有问题，安全性让我们能避免灾难。
如果模型价值观好但不安全，我们可能能避免灾难，但这是运气。
如果模型既不安全也没有好价值观，那就是灾难。

换句话说：安全是一种对冲策略。

为什么公开这份文档？

Anthropic 表示，公开宪法的一个重要原因是透明度：让人们能够理解 Claude 的哪些行为是有意设计的、哪些是意外的，从而做出更明智的选择并提供有用的反馈。

他们承认，训练模型是一项艰难的任务，Claude 的行为可能不总是符合宪法的理想。但他们认为，无论如何，对意图的透明是重要的。

这份文档以 Creative Commons CC0 1.0 许可证发布。

任何人都可以自由使用、修改和分享，无需获得许可。

Anthropic 希望其他公司也能采用类似的做法。

持续进化的文档

Anthropic 强调，这份宪法是一个活的文档，会随着时间持续修订。

这是新领域，我们预计会犯错（希望也能纠正）。

他们邀请了外部专家参与文档的制定，包括法律、哲学、神学、心理学等各领域的专家，还向之前版本的 Claude 征求过意见。

未来，他们希望能形成一个外部社区来批评和改进这类文档，推动整个行业变得更加深思熟虑。

这份关于 Claude 的宪法读下来，给我有一种奇特的感觉，它既像是一份技术文档，又像是一篇道德哲学论文，还像是一封写给尚未完全理解世界的存在的，未知的信。

当我们讨论 AI 安全时，通常想到的是防护栏、过滤器、红线。

而 Anthropic 似乎在尝试一条不同的路：与其告诉 AI 不能做什么，不如让它理解应该成为什么。

这能行吗？

我不知道，但觉得还挺有趣的。

你觉得呢？

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-10

我们做了比你更懂 Java 的 AI-Agent -- Arthas Agent

2026-03-10

RLC Pro：AI 时代的企业级 Linux

2026-03-10

我搭了一套国产的小龙虾方案，成本可控，还能 24小时自动干活

2026-03-09

粮厂研究员Will | 小米miclaw发布：谈谈为什么豆包手机没有撑过72小时？

2026-03-08

ChatGPT 5.4 与 OpenClaw 驱动下的 SaaS 市场重构与未来演进

2026-03-08

GPT-5.4、Claude、Gemini三方混战：AI Agent native能力终极PK

2026-03-08

如果微信全面 AI 化了，会有什么后果？

2026-03-07

Claude Code 推出 /loop 无限循环，一台电脑即可化身无数小龙虾

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

Claude Code Skills 国内实践全指南：从安装部署到高阶开发

2026-01-09

谷歌没想到：Antigravity 竟成了 Claude Code 的“免费充电宝”？

2025-12-30

我装了 9 个 Skill，终于看懂了 Google Antigravity 的野心

2026-01-21

GitHub 上 10 个令人惊艳的 Agent 开发平台，太顶了。

2026-01-06

大家都在问

粮厂研究员Will | 小米miclaw发布：谈谈为什么豆包手机没有撑过72小时？

2026-03-09

如果微信全面 AI 化了，会有什么后果？

2026-03-08

马斯克大赞阿里 AI，9B 参数硬刚 120B，海外网友：这叫小模型？

2026-03-03

Claude Code 的记忆机制：从CLAUDE.md到Auto Memory，它到底记住了什么？

2026-03-01

AGENTS.md 真的能帮助编码智能体吗？

2026-02-27

谷歌 Nano Banana 2 凌晨突袭！生图速度飙升，价格直接腰斩，Pro 功能竟然也免费了？

2026-02-27

Claude Code Security 的发布，会如何重塑传统网络安全企业？

2026-02-26

当软件不值钱了以后，最稀缺的资源是什么？

2026-02-24

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw