Ornith-1.0 发布：新一代 Agentic Coding 之王，MIT 开源

发布日期：2026-07-03 09:06:17 浏览次数： 1522

作者：大迁世界

微信搜一搜，关注“大迁世界”

今天凌晨，一个名叫 Ornith-1.0 的模型家族正式开源发布，并且在最硬核的赛道 Agentic Coding 上，直接横扫了多个公开 benchmark。

SWE-Bench Verified：82.4。

Terminal-Bench 2.1：77.5。

SWE-Bench Pro：62.2。

NL2Repo：48.2。

ClawEval：77.1。

这已经不是“接近闭源模型水平”。

而是“闭源模型目前都还没有公开达到这个成绩”。

在编程这件事上，开源模型正在从追赶，变成领先。

而且这一次，领先不是只发生在某个小模型上。

Ornith-1.0 覆盖了完整参数范围。

MIT 开源协议。

支持本地部署。

甚至还提供了 GGUF 版本。

这意味着，它不是一个只能在论文里看的模型。

它是真的可以被开发者拿下来跑、改、部署、商用的模型。

一个很香的 AI 平台：

GPT-5.5 和 Claude Code 4.8 都能用，倍率只要 0.2，包含 image-2生图。

重点是：注册就送额度，适合想低成本使用 Codex / Claude Code 的朋友。

入口：https://ai.aiyuhub.com

四个模型，一个野心

Ornith-1.0 不是一个单独模型。

它是一个模型家族。

一共四个规格，覆盖从个人电脑到企业集群的不同场景。

9B Dense。

31B Dense。

35B MoE。

397B MoE。

最小的 9B 可以在消费级 GPU 上运行。

最大的 397B MoE 面向企业级私有部署。

它是在 Gemma 4 和 Qwen 3.5 之上进行后训练的。

也就是说，它站在已有开源强模型的肩膀上，又往前跳了一步。

这个布局很有意思。

通常开源模型的策略，大多是两种：

一种是小而精，比如做 7B、9B，靠低门槛扩大使用量。

另一种是大而全，比如做 400B 级别，用规模证明实力。

但 Ornith 不是二选一。

它从 9B 一直覆盖到 397B。

每一档都有明确目标。

9B 给个人开发者。

本地可跑，几乎零成本。

31B 给小团队。

单服务器也能管理。

35B MoE 给中型项目。

更强调效率和吞吐。

397B MoE 给大型企业。

私有部署，数据留在内部。

每个参数层级，都对应一个清晰用户场景。

这不是“发一个模型”的思路。

这是“占领一条赛道”的思路。

82.4 到底意味着什么

先看数据。

SWE-Bench Verified 是目前 Agentic Coding 领域最硬核的 benchmark 之一。

它不是考选择题。

也不是考填空题。

它考的是：

给你一个真实 GitHub issue。

你要自动定位代码。

修改代码。

跑通单元测试。

这是真实世界里的编程任务。

不是刷 LeetCode。

一个熟练的人类开发者，在 SWE-Bench 上处理这些任务，业内大致认为正确率可能在 70% 到 75% 左右。

这当然不是绝对数字。

但大多数程序员第一次做 SWE-Bench 里的问题，也很难保证全都一次通过。

而 Ornith-1.0 打到了 82.4。

不是 82.4%。

而是这个 benchmark 上的公开分数 82.4。

在当前公开可验证结果里，这是非常高的水平。

82.4 不只是一个数字。

它更像是一句声明：

开源模型已经开始进入 AI 工程师级别竞争了。

再看其他指标。

SWE-Bench Pro：62.2。

Pro 版本更难，涉及多文件修改、跨模块重构和复杂依赖关系。

62.2 意味着它已经具备处理中等规模工程任务的能力。

不再只是改一行注释，或者修一个简单函数。

Terminal-Bench 2.1：77.5。

这个 benchmark 测的是模型在真实终端环境里的操作能力。

cd、ls、grep、修改配置文件、调试服务、部署应用。

77.5 说明它不是在“模拟终端”。

它是真的能像坐在工位前的工程师一样使用终端。

NL2Repo：48.2。

你用自然语言描述需求，它直接生成一个完整 GitHub 仓库。

这个分数看起来可能不高。

但你要理解这个任务有多难：

你说一句“帮我做一个任务管理 App”。

它要从零搭一个完整项目。

48.2 已经是开源模型中的最高水平。

还有 SWE Atlas 41.2 QnA。

ClawEval：77.1。

82.4、62.2、77.5、48.2、41.2、77.1。

翻译成人话就是：

Ornith-1.0 不是一个和你聊代码的聊天机器人。

它更像一个能坐在你电脑前，打开终端，理解代码库，并独立完成开发任务的 AI 工程师。

而且这个工程师是免费的。

MIT 协议。

可以商用。

让模型改进自己的工具

真正值得讨论的，并不只是高分。

而是它是怎么做到的。

Ornith-1.0 是基于 Gemma 4 和 Qwen 3.5 做后训练。

但关键创新在于一个技术决策：

用强化学习同时优化 task scaffold 和 final solution。

这是什么意思？

传统 AI 编程工具通常分两层。

第一层是 scaffold。

负责任务规划、工具调用、上下文管理。

第二层是 solution。

负责真正写代码、修 bug、跑测试。

过去大多数团队的做法是：

scaffold 由人类工程师手写。

用固定规则控制流程。

模型主要优化 solution 部分。

也就是让模型更会写代码、更会修 bug。

Ornith 的做法不一样。

它把 scaffold 和 solution 一起丢进强化学习优化循环里。

让模型自己发现：

什么样的执行框架更好。

而不是让人类工程师先猜一个框架，再让模型适配它。

这个差异有多大？

可以这样理解：

过去是给工人一把锤子，让他用这把锤子干活。

现在是让工人自己设计一把更顺手的锤子，然后再用它干活。

工人自己设计出来的工具，自然更符合自己的使用习惯。

用 Ornith 团队自己的说法：

模型会自主改进执行框架。

换句话说：

AI 不只是写代码。

AI 开始优化“写代码的方式”本身。

这件事的影响，远远超过 benchmark 分数。

因为这意味着，未来 AI 编程工具的进化，不再完全受限于人类工程师对“好 scaffold”的想象。

模型可以自己探索执行策略。

发现人类没想到的工具组合。

尝试人类没有设计过的流程。

人类退后一步。

模型往前一步。

一旦强化学习飞轮转起来，迭代速度会远远超过人工调参。

开源撕开闭源最后防线

长期以来，coding agent 一直被认为是闭源模型最后的堡垒。

为什么？

因为这个任务太难了。

它不是简单预测下一个 token。

它需要理解复杂代码仓库里的上下文。

需要规划多步骤操作。

需要调用各种工具。

需要处理错误反馈。

还要反复修正方案。

这和“写一段文字”的难度完全不是一个量级。

所以 Anthropic 和 OpenAI 都把最重的筹码压在 coding agents 上。

Claude Code 的年化收入据说已经超过 25 亿美元。

GitHub Copilot 拥有数千万用户。

AI 编程，是大模型商业化中最确定、变现最快的赛道之一。

闭源玩家的算盘很清楚：

基础模型可以开源。

你们随便用。

但真正好用的 coding agent，必须付费。

然后 Ornith-1.0 出现了。

MIT 协议。

GGUF 版本。

本地部署。

完整参数范围。

六项 benchmark 开源最高分。

做模型的不如卖 agent 的。

卖 agent 的不如开源免费送的。

这可能是当前 AI 编程领域最大的黑色幽默。

Ornith 背后的团队，并不是一个千人规模的巨头。

根据 Berry Xia 在 X 上发布的信息，这更像是一支在现有开源模型基础上做后训练的研究团队。

没有天价融资新闻。

没有“改变世界”的发布会 PPT。

只有一个模型家族。

一组 benchmark 分数。

MIT 协议。

然后直接丢给开源社区。

可以想象，Anthropic 和 OpenAI 的产品经理看到这个消息时是什么感受。

他们花了数十亿美元在 Agentic Coding 上建立护城河。

现在，一个开源团队基于已有开源模型做后训练，拿到了多个公开 benchmark 的开源最高分。

然后说：

随便用，免费。

闭源花重金建立的护城河，被开源用一次后训练直接填平了一大段。

开源 vs 闭源：战场变了

我们来盘一下现在的局面。

开源阵营：

Ornith-1.0，SWE-Bench 82.4。

DeepSeek V4，代码能力已经被行业广泛认可。

Qwen 3.5，代码能力也出现明显跃迁。

这些模型基本都采用 MIT 或类似友好的协议。

可以本地部署。

可以免费商用。

闭源阵营：

Claude Code。

GPT-5.5 + Codex。

Gemini + Code Assist。

但这里有一个关键细节：

很多闭源模型在 SWE-Bench 上的成绩，缺少公开、独立、可复现的数据。

而 Ornith 的成绩是公开发布的。

任何人都可以跑模型验证。

当一个开源模型的 benchmark 更透明、分数更高、还完全免费时，市场会发生什么？

答案已经在其他赛道验证过了。

LLaMA 开源之后，闭源基础模型的议价能力被明显削弱。

Stable Diffusion 开源之后，Midjourney 被迫从“卖模型”转向“卖体验”。

现在，同样的剧本，可能要在 Agentic Coding 里重演。

而这一次，开源手里的武器更锋利。

因为 Agentic Coding 的核心，不只是模型能力。

还有工程能力。

而工程能力，恰恰是开源社区最擅长的领域。

一万个开发者基于 Ornith 做二次开发，就能产生一万个不同的 agent 框架和垂直场景方案。

闭源公司的工程团队再强，又能有多少人？

战场已经变了。

不再只是“谁的模型更强”。

而是“谁的生态更大”。

闭源还在比模型。

开源已经开始比生态。

三个信号

第一个信号：Agentic Coding 的模型层正在商品化

当一个 9B 模型已经具备 agent 级代码能力。

当 MIT 协议允许任何人免费商用。

当 GGUF 版本可以让你在 MacBook 上跑起来。

模型本身就不再是稀缺资源。

就像云计算让物理服务器不再稀缺一样。

真正有价值的东西，会从“模型能力”转向“场景适配”和“工作流集成”。

谁能把 Ornith 接入你的内部代码仓库？

谁能连接你的 CI/CD pipeline？

谁能适配你的代码规范和业务逻辑？

谁就能赚钱。

模型本身，成本趋近于零。

第二个信号：scaffold + solution 联合优化会成为新范式

Ornith 不是第一个用 RL 做后训练的模型。

但它是少数把 scaffold 和 solution 联合优化做到这么极致，并且用六项 benchmark 证明有效的模型。

这意味着，未来 AI 编程工具不会再只是：

人类设计框架，模型执行指令。

而会变成：

模型设计自己的框架。

模型自己执行。

RL 提供反馈。

模型继续迭代框架。

一旦这个闭环跑通，迭代速度就是指数级的。

这会改变 AI 编程工具的底层结构。

第三个信号：开源在 agent 时代第一次具备结构性优势

过去两年，开源模型已经在聊天、写作、翻译等内容生成场景证明了竞争力。

但 Agentic Coding 是第一次，开源模型在复杂任务执行这个维度上跑到了前面。

这不是偶然。

Agent 的核心是工具调用、多步规划和环境交互。

这些问题本质上都是工程问题。

而工程问题天然适合开源协作。

闭源公司可以隐藏模型权重。

但它们很难隐藏最佳工程架构。

一千个开发者共同打磨一个 agent framework，最终一定会产生超出任何单一闭源团队设计能力的东西。

这就是开源在 agent 时代真正可怕的地方。

最后

Ornith-1.0 的发布，让我想起 Goldman Sachs 分析 AI 行业时提出过的一个问题：

更便宜的智能，会创造更多需求，还是摧毁定价能力？

当时，这个问题主要针对基础模型。

现在，同样的问题要问到 Agentic Coding 赛道上了。

当一个完全开源、覆盖全参数范围、支持本地部署、具备最强开源表现的 Agentic Coding 模型家族，以 MIT 协议出现在所有人面前时，AI 写代码的商业模式会发生什么？

Ornith 团队已经用行动给出了答案：

别想太多。

先开源再说。

最后：

Hermess Agent基础教程

精通 React 面试：从零到中高级(针对面试回答)

CSS终极指南

Vue 设计模式实战指南

20个前端开发者必备的响应式布局

深入React:从基础到最佳实践完整攻略

python 技巧精讲

React Hook 深入浅出

CSS技巧与案例详解

vue2与vue3技巧合集

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

Ornith-1.0 发布： 新一代 Agentic Coding 之王，MIT 开源

四个模型，一个野心

82.4 到底意味着什么

让模型改进自己的工具

开源撕开闭源最后防线

开源 vs 闭源：战场变了

三个信号

第一个信号：Agentic Coding 的模型层正在商品化

第二个信号：scaffold + solution 联合优化会成为新范式

第三个信号：开源在 agent 时代第一次具备结构性优势

最后

Ornith-1.0 发布：新一代 Agentic Coding 之王，MIT 开源