微信扫码
添加专属顾问
Ornith-1.0以MIT开源协议发布,在Agentic Coding赛道横扫多项基准,性能甚至超越闭源模型,开发者可本地部署商用。核心内容: 1. Ornith-1.0模型家族覆盖从9B到397B的完整参数范围 2. 在SWE-Bench等硬核编程基准上表现卓越,超越人类开发者平均水平 3. 提供清晰的场景化部署方案与商业友好的开源许可
今天凌晨,一个名叫 Ornith-1.0 的模型家族正式开源发布,并且在最硬核的赛道 Agentic Coding 上,直接横扫了多个公开 benchmark。
SWE-Bench Verified:82.4。
Terminal-Bench 2.1:77.5。
SWE-Bench Pro:62.2。
NL2Repo:48.2。
ClawEval:77.1。
这已经不是“接近闭源模型水平”。
而是“闭源模型目前都还没有公开达到这个成绩”。
在编程这件事上,开源模型正在从追赶,变成领先。
而且这一次,领先不是只发生在某个小模型上。
Ornith-1.0 覆盖了完整参数范围。
MIT 开源协议。
支持本地部署。
甚至还提供了 GGUF 版本。
这意味着,它不是一个只能在论文里看的模型。
它是真的可以被开发者拿下来跑、改、部署、商用的模型。
一个很香的 AI 平台:
GPT-5.5 和 Claude Code 4.8 都能用,倍率只要 0.2,包含 image-2生图。
重点是:注册就送额度,适合想低成本使用 Codex / Claude Code 的朋友。
入口:https://ai.aiyuhub.com
Ornith-1.0 不是一个单独模型。
它是一个模型家族。
一共四个规格,覆盖从个人电脑到企业集群的不同场景。
9B Dense。
31B Dense。
35B MoE。
397B MoE。
最小的 9B 可以在消费级 GPU 上运行。
最大的 397B MoE 面向企业级私有部署。
它是在 Gemma 4 和 Qwen 3.5 之上进行后训练的。
也就是说,它站在已有开源强模型的肩膀上,又往前跳了一步。
这个布局很有意思。
通常开源模型的策略,大多是两种:
一种是小而精,比如做 7B、9B,靠低门槛扩大使用量。
另一种是大而全,比如做 400B 级别,用规模证明实力。
但 Ornith 不是二选一。
它从 9B 一直覆盖到 397B。
每一档都有明确目标。
9B 给个人开发者。
本地可跑,几乎零成本。
31B 给小团队。
单服务器也能管理。
35B MoE 给中型项目。
更强调效率和吞吐。
397B MoE 给大型企业。
私有部署,数据留在内部。
每个参数层级,都对应一个清晰用户场景。
这不是“发一个模型”的思路。
这是“占领一条赛道”的思路。
先看数据。
SWE-Bench Verified 是目前 Agentic Coding 领域最硬核的 benchmark 之一。
它不是考选择题。
也不是考填空题。
它考的是:
给你一个真实 GitHub issue。
你要自动定位代码。
修改代码。
跑通单元测试。
这是真实世界里的编程任务。
不是刷 LeetCode。
一个熟练的人类开发者,在 SWE-Bench 上处理这些任务,业内大致认为正确率可能在 70% 到 75% 左右。
这当然不是绝对数字。
但大多数程序员第一次做 SWE-Bench 里的问题,也很难保证全都一次通过。
而 Ornith-1.0 打到了 82.4。
不是 82.4%。
而是这个 benchmark 上的公开分数 82.4。
在当前公开可验证结果里,这是非常高的水平。
82.4 不只是一个数字。
它更像是一句声明:
开源模型已经开始进入 AI 工程师级别竞争了。
再看其他指标。
SWE-Bench Pro:62.2。
Pro 版本更难,涉及多文件修改、跨模块重构和复杂依赖关系。
62.2 意味着它已经具备处理中等规模工程任务的能力。
不再只是改一行注释,或者修一个简单函数。
Terminal-Bench 2.1:77.5。
这个 benchmark 测的是模型在真实终端环境里的操作能力。
cd、ls、grep、修改配置文件、调试服务、部署应用。
77.5 说明它不是在“模拟终端”。
它是真的能像坐在工位前的工程师一样使用终端。
NL2Repo:48.2。
你用自然语言描述需求,它直接生成一个完整 GitHub 仓库。
这个分数看起来可能不高。
但你要理解这个任务有多难:
你说一句“帮我做一个任务管理 App”。
它要从零搭一个完整项目。
48.2 已经是开源模型中的最高水平。
还有 SWE Atlas 41.2 QnA。
ClawEval:77.1。
82.4、62.2、77.5、48.2、41.2、77.1。
翻译成人话就是:
Ornith-1.0 不是一个和你聊代码的聊天机器人。
它更像一个能坐在你电脑前,打开终端,理解代码库,并独立完成开发任务的 AI 工程师。
而且这个工程师是免费的。
MIT 协议。
可以商用。
真正值得讨论的,并不只是高分。
而是它是怎么做到的。
Ornith-1.0 是基于 Gemma 4 和 Qwen 3.5 做后训练。
但关键创新在于一个技术决策:
用强化学习同时优化 task scaffold 和 final solution。
这是什么意思?
传统 AI 编程工具通常分两层。
第一层是 scaffold。
负责任务规划、工具调用、上下文管理。
第二层是 solution。
负责真正写代码、修 bug、跑测试。
过去大多数团队的做法是:
scaffold 由人类工程师手写。
用固定规则控制流程。
模型主要优化 solution 部分。
也就是让模型更会写代码、更会修 bug。
Ornith 的做法不一样。
它把 scaffold 和 solution 一起丢进强化学习优化循环里。
让模型自己发现:
什么样的执行框架更好。
而不是让人类工程师先猜一个框架,再让模型适配它。
这个差异有多大?
可以这样理解:
过去是给工人一把锤子,让他用这把锤子干活。
现在是让工人自己设计一把更顺手的锤子,然后再用它干活。
工人自己设计出来的工具,自然更符合自己的使用习惯。
用 Ornith 团队自己的说法:
模型会自主改进执行框架。
换句话说:
AI 不只是写代码。
AI 开始优化“写代码的方式”本身。
这件事的影响,远远超过 benchmark 分数。
因为这意味着,未来 AI 编程工具的进化,不再完全受限于人类工程师对“好 scaffold”的想象。
模型可以自己探索执行策略。
发现人类没想到的工具组合。
尝试人类没有设计过的流程。
人类退后一步。
模型往前一步。
一旦强化学习飞轮转起来,迭代速度会远远超过人工调参。
长期以来,coding agent 一直被认为是闭源模型最后的堡垒。
为什么?
因为这个任务太难了。
它不是简单预测下一个 token。
它需要理解复杂代码仓库里的上下文。
需要规划多步骤操作。
需要调用各种工具。
需要处理错误反馈。
还要反复修正方案。
这和“写一段文字”的难度完全不是一个量级。
所以 Anthropic 和 OpenAI 都把最重的筹码压在 coding agents 上。
Claude Code 的年化收入据说已经超过 25 亿美元。
GitHub Copilot 拥有数千万用户。
AI 编程,是大模型商业化中最确定、变现最快的赛道之一。
闭源玩家的算盘很清楚:
基础模型可以开源。
你们随便用。
但真正好用的 coding agent,必须付费。
然后 Ornith-1.0 出现了。
MIT 协议。
GGUF 版本。
本地部署。
完整参数范围。
六项 benchmark 开源最高分。
做模型的不如卖 agent 的。
卖 agent 的不如开源免费送的。
这可能是当前 AI 编程领域最大的黑色幽默。
Ornith 背后的团队,并不是一个千人规模的巨头。
根据 Berry Xia 在 X 上发布的信息,这更像是一支在现有开源模型基础上做后训练的研究团队。
没有天价融资新闻。
没有“改变世界”的发布会 PPT。
只有一个模型家族。
一组 benchmark 分数。
MIT 协议。
然后直接丢给开源社区。
可以想象,Anthropic 和 OpenAI 的产品经理看到这个消息时是什么感受。
他们花了数十亿美元在 Agentic Coding 上建立护城河。
现在,一个开源团队基于已有开源模型做后训练,拿到了多个公开 benchmark 的开源最高分。
然后说:
随便用,免费。
闭源花重金建立的护城河,被开源用一次后训练直接填平了一大段。
我们来盘一下现在的局面。
开源阵营:
Ornith-1.0,SWE-Bench 82.4。
DeepSeek V4,代码能力已经被行业广泛认可。
Qwen 3.5,代码能力也出现明显跃迁。
这些模型基本都采用 MIT 或类似友好的协议。
可以本地部署。
可以免费商用。
闭源阵营:
Claude Code。
GPT-5.5 + Codex。
Gemini + Code Assist。
但这里有一个关键细节:
很多闭源模型在 SWE-Bench 上的成绩,缺少公开、独立、可复现的数据。
而 Ornith 的成绩是公开发布的。
任何人都可以跑模型验证。
当一个开源模型的 benchmark 更透明、分数更高、还完全免费时,市场会发生什么?
答案已经在其他赛道验证过了。
LLaMA 开源之后,闭源基础模型的议价能力被明显削弱。
Stable Diffusion 开源之后,Midjourney 被迫从“卖模型”转向“卖体验”。
现在,同样的剧本,可能要在 Agentic Coding 里重演。
而这一次,开源手里的武器更锋利。
因为 Agentic Coding 的核心,不只是模型能力。
还有工程能力。
而工程能力,恰恰是开源社区最擅长的领域。
一万个开发者基于 Ornith 做二次开发,就能产生一万个不同的 agent 框架和垂直场景方案。
闭源公司的工程团队再强,又能有多少人?
战场已经变了。
不再只是“谁的模型更强”。
而是“谁的生态更大”。
闭源还在比模型。
开源已经开始比生态。
当一个 9B 模型已经具备 agent 级代码能力。
当 MIT 协议允许任何人免费商用。
当 GGUF 版本可以让你在 MacBook 上跑起来。
模型本身就不再是稀缺资源。
就像云计算让物理服务器不再稀缺一样。
真正有价值的东西,会从“模型能力”转向“场景适配”和“工作流集成”。
谁能把 Ornith 接入你的内部代码仓库?
谁能连接你的 CI/CD pipeline?
谁能适配你的代码规范和业务逻辑?
谁就能赚钱。
模型本身,成本趋近于零。
Ornith 不是第一个用 RL 做后训练的模型。
但它是少数把 scaffold 和 solution 联合优化做到这么极致,并且用六项 benchmark 证明有效的模型。
这意味着,未来 AI 编程工具不会再只是:
人类设计框架,模型执行指令。
而会变成:
模型设计自己的框架。
模型自己执行。
RL 提供反馈。
模型继续迭代框架。
一旦这个闭环跑通,迭代速度就是指数级的。
这会改变 AI 编程工具的底层结构。
过去两年,开源模型已经在聊天、写作、翻译等内容生成场景证明了竞争力。
但 Agentic Coding 是第一次,开源模型在复杂任务执行这个维度上跑到了前面。
这不是偶然。
Agent 的核心是工具调用、多步规划和环境交互。
这些问题本质上都是工程问题。
而工程问题天然适合开源协作。
闭源公司可以隐藏模型权重。
但它们很难隐藏最佳工程架构。
一千个开发者共同打磨一个 agent framework,最终一定会产生超出任何单一闭源团队设计能力的东西。
这就是开源在 agent 时代真正可怕的地方。
Ornith-1.0 的发布,让我想起 Goldman Sachs 分析 AI 行业时提出过的一个问题:
更便宜的智能,会创造更多需求,还是摧毁定价能力?
当时,这个问题主要针对基础模型。
现在,同样的问题要问到 Agentic Coding 赛道上了。
当一个完全开源、覆盖全参数范围、支持本地部署、具备最强开源表现的 Agentic Coding 模型家族,以 MIT 协议出现在所有人面前时,AI 写代码的商业模式会发生什么?
Ornith 团队已经用行动给出了答案:
别想太多。
先开源再说。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-02
Meta把内部设计系统开源了,支撑内部13000+应用,专为Agent调优
2026-07-02
别再把 AI 当搜索引擎了,这 20 个操作让它替你干活
2026-07-02
ollama v0.31.1发布:Apple Silicon上Gemma 4提速近90%,默认开启无感升级
2026-07-01
在 OpenCode 中接入本地模型:Ollama 部署与配置完全指南
2026-07-01
实测腾讯开源的 BrowserSkill:让 AI 直接用你登录好的浏览器
2026-07-01
阶跃开源JetSpec,大模型推测解码提速近10倍
2026-06-30
花叔的这个神器直接让你的AI Agent出高保真原型、PPT和动画,20k stars不是盖的
2026-06-30
阿里达摩院开源语音识别:比Whisper快170倍还免费,CPU就能跑
2026-04-09
2026-04-18
2026-04-18
2026-06-22
2026-05-10
2026-05-06
2026-05-20
2026-05-31
2026-04-21
2026-04-21
2026-06-16
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。