Hermes Agent 深度解析：为什么它能“越用越懂你”？

发布日期：2026-05-16 09:39:47 浏览次数： 2158

作者：多模态智能体

微信搜一搜，关注“多模态智能体”

15w+ Stars。每天 200+ 条 Issue。一个社区自发整理的"橙皮书"。

这不是某家大厂发布会的配套声量，是一个叫 Hermes Agent 的开源项目，在 2026 年 2 月横空出世后，自己滚起来的。

我最开始没太当回事。开源 Agent 项目每个月都有几个，GitHub Trending 刷一刷，热闹三天就散。但这个不一样——它在 Trending 上待了整整两周，然后安静下来，却没有消失。那些 Star 还在持续增加，社区里的讨论越来越具体、越来越技术，不像追风，倒像是真的在用。

于是我认真研究了一下。

先说一个真实的问题

你有没有遇到过这种情况：

花了半个小时跟 AI 把项目背景讲清楚，下次打开，又要从头来一遍。你告诉它你不喜欢代码里加过多注释，它点头答应，下一个任务又给你加了一堆。你教它用某种格式输出结果，有效一次，第二天失效。

这不是你的问题，也不是模型不够聪明。是结构性的：绝大多数 Agent 的设计，本质上是无状态的。它们没有学习的地方——每次对话结束，经验就清空。用三个月和用三天，没有区别。

Hermes 想解决的，正是这件事。

Hermes 是谁造的

Hermes Agent 由 Nous Research 开发，2026 年 2 月正式开源。

Nous Research 这个名字，做 AI 的人不陌生。他们是开源社区里最重要的微调研究组织之一，Hermes 语言模型系列（Hermes 1 → 2 → 2 Pro → 3）在开发者圈子里有很高的口碑——尤其是工具调用能力和指令遵循性上，长期是开源模型的标杆之一。

Hermes Agent 是他们把这些年积累的东西，往前走了一步：从语言模型，到一个能跑在你服务器上、持续运行、持续学习的智能体系统。

官方对它的定位很直接："An autonomous agent that lives on your server, remembers what it learns, and gets more capable the longer it runs."——住在你服务器上，记住它学到的东西，跑得越久，能力越强。

它到底做了什么不一样的事

大多数 Agent 的工作流程是：接收指令 → 调用工具 → 返回结果。这个循环里没有学习，没有沉淀，能力是水平线。

Hermes 在这个循环外面，加了一个外环。

学习回路：它会主动"复盘"

每完成一批任务，Hermes 会触发一次自我评估：这次执行有没有走弯路？有没有调用了根本没用的工具？中间有没有报错、然后用低效的方式绕过去？

评估结果不会丢掉。如果这次找到了一个好的解法，它会自动把这个解法整理成一份技能文件（Skill），写进 ~/.hermes/skills/ 目录下，格式是 Markdown，遵循 agentskills.io 标准——人可读，也可以手动编辑或删除。

下次遇到类似任务，Hermes 会先检索本地技能库，看有没有现成的解法可以复用，而不是从零开始摸索。

有一个社区里流传的案例：第一周处理同类任务需要 25 次工具调用，第六周缩短到 8–10 次。减少的那些调用，是它自己省掉的——因为它记住了哪些步骤是多余的。

这个机制背后的技术是 DSPy + GEPA（Genetic Evolution of Prompt Architectures，ICLR 2026 Oral）。它不是在训练模型，而是在自动进化技能描述、工具说明和系统提示词。每次优化的运行成本在 2–10 美元，不需要 GPU。

记忆系统：五层，不是一个文本文件

很多 Agent 的"记忆"，不过是把对话历史存成一个文本，下次塞进上下文。这个方案在任务简单时还行，任务一复杂，Token 爆了，或者找不到关键信息。

Hermes 的记忆是分层的：

第一层，短期记忆。管理当前对话的上下文，支持自动压缩。渐进式披露的设计——技能文件默认只加载摘要，需要用到再展开完整内容，不会一次性把 Token 撑爆。

第二层，情景记忆。用 SQLite + FTS5 全文索引存储历史交互。关键是，它不是直接把旧对话塞进新对话——而是先用 LLM 做摘要，再注入。这样既能找到"上次那件事是怎么处理的"，又不会让上下文失控膨胀。

第三层，持久化核心记忆。USER.md 和 MEMORY.md 两个文件，记录你的偏好、常用环境、项目背景。这些信息跨会话保留，哪怕重启、换设备也在。

第四层，程序性技能记忆。就是前面说的 Skill 文件。新任务进来，先搜这里。

第五层，Honcho 用户建模（可选）。这层比较有意思——它集成了 Honcho，通过辩证推理机制，在你和它的长期交互中，逐渐推导出你的工作风格和思维模式，形成用户画像。你不需要显式配置，它自己在跑。

跟 OpenClaw 有什么不同

这个问题被问得很多。两个项目都火，有时候社区里争得挺激烈。

我觉得，从设计哲学上，它们不是同一类东西。

OpenClaw 的核心是"连接"。它像一个万能网关，接入几百个工具和服务，把各种能力整合进来。它的强项是广度——你需要一个能调用什么都能调的系统，OpenClaw 很顺手。

Hermes 的核心是"进化"。它不是要接最多的工具，而是要把你用过的工具用得越来越好，把重复的工作路径固化成技能，把你的偏好沉淀成记忆。它的强项是深度——你需要一个真正了解你工作方式的系统，Hermes 更适合。

几个具体的差异值得提一下：

自进化能力。 Hermes 原生支持技能自动生成和迭代，这是架构层面的设计；OpenClaw 的技能依赖人工编写或从社区下载，没有自动进化机制。

记忆机制。 Hermes 有主动的周期性记忆保存，前面讲的五层都是系统内建的；OpenClaw 主要依靠模型自主判断要不要记，容易丢失。

安全性。 Hermes 内建了容器隔离、MCP 凭证过滤、Tirith 预执行扫描等多层防线，v0.5.0 还做了一次完整的供应链审计；OpenClaw 的插件生态复杂，历史上出现过安全隐患，这是已知的缺陷。

本地模型支持。 Hermes 对 Ollama 的支持更原生，配置也更灵活；这对想在本地跑模型、不依赖云端 API 的开发者来说，是实质性的差别。

结论不是谁更好，而是场景不同。单次任务、需要调用大量外部工具，OpenClaw 没有问题。规律性的、重复性的、需要长期积累的复杂工作，Hermes 会越来越顺手。

它能用在哪里

开发者场景是 Hermes 目前最成熟的用法。让它跑在你的服务器上，持续做 Code Review、生成接口文档、处理 Bug 单——这些任务高度重复，正好是学习回路能发挥价值的地方。跑了一个月之后，它对你的项目结构、命名习惯、常见问题的熟悉程度，会明显超过一个刚接手的新同事。

个人效率场景也有意思。在 Telegram 上给它发消息，它在云端的 VPS 上执行——不依赖你的电脑，不占你的本地算力，脱机也能跑定时任务。有人用它做每日简报：定时抓取几个数据源，整理成固定格式，早上推送到手机。跑了几周之后，它已经学会了你喜欢的格式和关注的维度，不需要再反复说明。

知识沉淀场景是被低估的一个。把它接入团队的文档系统，每次技术讨论结束让它整理成结构化的笔记，积累下来就是一个真正活的知识库——不是那种写了就没人看的 Confluence，而是下次遇到类似问题时会被检索到、被复用的东西。

怎么跑起来

Linux / macOS / WSL2 都支持，一行命令安装：

bash

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

Android 通过 Termux 也支持，Windows 原生暂不支持。

模型这边，支持 Nous Portal（400+ 模型，含免费的 MiMo v2 Pro）、OpenRouter（200+ 模型）、OpenAI、Anthropic、Google AI Studio，以及本地的 Ollama。切换模型不需要改代码，/model 命令就行，现在还支持在对话过程中实时切换。

六种执行后端：本地、Docker、SSH、Daytona、Singularity、Modal。其中 Daytona 和 Modal 支持无服务器持久化——Agent 的环境闲置时自动休眠，有任务时唤醒，5 美元 VPS 就能跑，空闲时几乎不产生费用。

有哪些问题没有解决

说了这么多好的，也要说清楚它目前的局限。

冷启动成本真实存在。刚开始用的前两周，Hermes 和其他 Agent 没有太大区别。技能库是空的，用户画像是空的，学习回路还没有积累足够的数据。如果你只用它处理一次性任务，感受不到它的优势。它的价值在时间里，不在第一天。

技能文件需要你去审查。自动生成的技能不总是对的。有时候它会把一个"绕过错误"的笨方法固化成技能，如果你不检查，这个坏习惯会一直沿用下去。这不是设计缺陷，但确实需要用户承担一部分管理责任。

复杂推理仍是短板。这不是 Hermes Agent 独有的问题——它依赖的底层模型决定了推理上限。在需要多步数学推导或高度抽象逻辑的任务上，和 DeepSeek-R1 这类专项推理模型相比，差距还在。

社区维护模式的可持续性是未知数。 Nous Research 没有商业产品支撑这个项目，靠的是社区驱动。目前贡献者超过 1900 人，活跃度很高——但这种模式能否在几年后保持，很难预判。

写在最后

我见过太多"颠覆性"的 AI 工具，发布一周，讨论三天，然后慢慢消失在书签里。

Hermes 让我觉得不太一样的地方，不是功能列表有多长，而是它在解决一个真实的、结构性的问题：我们跟 AI 工具的关系，不应该是每次都从零开始的陌生人。

大多数工具把"智能"当成一个固定的参数——出厂设置，终身不变。Hermes 想把"智能"变成一个变量，随着你使用的时间，随着它积累的经验，缓慢但持续地增长。

你用它的第一天，它什么都不知道你。你用它的第一年，它比任何同事都更了解你的工作方式。

这是一种不同的竞争逻辑——不比谁开局更强，比谁越用越值。

文章看完了，你觉得你要开发智能体，有哪些可以抄作业的？

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业