微信扫码
添加专属顾问
我要投稿
DeepSeek-V3在ORGEval评测中意外夺冠,揭示传统大模型评测的盲区。 核心内容: 1. 传统大模型优化建模评测的三大缺陷 2. ORGEval如何通过图论方法精准评估模型 3. DeepSeek-V3等非推理模型的意外表现与启示
大家好,我是PaperAgent,不是Agent!
昨天刷到一篇 ICML workshop论文,看完真有点意思,它没去训新模型刷榜,而是回头修了一把被忽视的尺子——ORGEval,一套基于图论的优化模型评测方法。
研究团队把当时 8 个主流大模型拉过来跑了一圈。令人意外的是,三个最热的推理模型全部输给了非推理模型,DeepSeek-V3拿下Top1。
这篇论文由深圳大数据研究院、深圳国际工业与应用数学中心副研究员丁添领衔,他还是:智子芯元创始人。
相比于在过去两年常被讨论的明星公司,丁添所带领的智子芯元一直在默默发力“AI+数学”的研究与落地,论文重要贡献者林志航也担任智子芯元联合创始人。
论文地址:https://arxiv.org/pdf/2510.27610
作者单位:香港中文大学(深圳)、深圳大数据研究院、深圳市河套学院、深圳国际工业与应用数学中心
论文会议地址:ICML 2026 CTB 研讨会 https://sites.google.com/view/icml-ctb/home
下面我把这事讲清楚。
刚毕业那会儿,我帮一个学物流的朋友补过运筹学。它干的事说白了就是:把现实里乱糟糟的问题,翻译成一个数学优化模型。
比如仓库最省钱排车次、工厂最划算定产线,把现实约束写成方程:变量、目标函数、约束,一个都不能漏。
写完丢给求解器(solver)算最优解。过去这事靠人,老练建模师工资极高。现在让LLM来写,但怎么判断它写得对不对?老办法是扔进求解器跑,看最优值跟标准答案对不对得上。
听上去挺合理对吧?但这套方法,硬伤一堆:
第一种翻车:碰巧蒙对了。
两个模型其实写得不一样,一个对一个错,但在特定参数下凑巧最优值相同,换一组参数立刻露馅。
第二种翻车:题目本身无解。
有些参数配置下问题无解,求解器报infeasible,两边都没答案,评测系统直接哑火。
第三种翻车:求解器跑不动。
有些混合整数线性规划(Mixed Integer Linear Programming,MILP)题目,跑几小时甚至几天都没结果,这意味着 RLHF 这种需要快速反馈的训练循环根本跑不起来。这正是论文重要贡献者林志航最熟悉的痛点——他此前在西湖心辰(30 亿估值)任CTO,全面负责过西湖大模型从 0 到 1 的训练。
一句话:老办法是让两个模型分别去考试对答案,但这考试本身就不公正。
这就是 ORGEval 的反直觉之处。
它说:别费那个劲跑求解器了,直接看你写的模型和标准答案长得像不像
什么叫长得像?
论文将模型实例(参数化后的具体问题)表示为二分图(bipartite graph):
这样一来,模型的对错问题,就转化成了一个纯图论问题:两张图是不是同构(isomorphic)?
也就是说,不用关心你给变量起的名字是 x 还是 y,不用关心你列约束的顺序是先写产量还是先写库存,只要图的骨架是一样的,那两个模型就是等价的。
Lemma C.1严格建立了这种等价关系:
这一步的好处是巨大的:
不过这条路也不是白送的。
学过算法的朋友应该知道,判断两张图是否同构,本身就是个出了名的硬骨头,一般情况下没有多项式时间算法。
有一个经典的近似办法,叫 WL-test(Weisfeiler-Lehman test),你可以把它想象成一种给节点反复染色的算法:每一轮根据邻居的颜色更新自己的颜色,几轮之后,如果两张图的颜色分布对不上,那肯定不同构。
WL-test的好处是快。坏处是:它有时会判错,两张实际上不同构的图,它有可能给出看起来同构的结论。在数学评测里,这种 false positive 是致命的。
那怎么办?
ORGEval 这篇论文真正的硬核贡献来了:
证明了一个充分条件:当一张图属于对称可分解(Symmetric Decomposable, SD)这一类时,WL-test是 100% 准确的。
Definition 3.1给出了 SD 的严格定义:
在此基础上,Theorem 3.1给出了核心保证:
即:在 SD 条件下,WL-test的着色分布相同 ⟺ 模型实例等价。
然后他们做了两件事:
这套组合拳一打,就解决了 WL-test不靠谱的老问题,只在它能保证正确的范围内用它。
说白了,他们没有去硬刚图同构问题本身,而是聪明地圈出了一块WL-test保证正确的安全区,然后让评测只在这块安全区里跑。
他们在 MIPLIB(求解器社区的标准测试集)上抽了 75 道题分三档难度做对照:
这不是单纯快,这是把不可能变成可行,某种意义上是智子芯元创始人丁添此前 Adam-mini(神经网络几何景观理论与高效训练算法) 工作的另一面,那次解的是训练侧效率瓶颈,这次解评估侧。
每个模型用 5 组随机参数测:
Solver 的可行性一致性平均只有 35.62%——即超过 60% 的模型会出现可行/不可行判断不一致的情况,这就是为什么需要换尺子。
把这把新尺子换上去之后,他们准备给 8 个主流模型打分。
光有评测方法不够,还得有题。
研究团队构建了 Bench4Opt 数据集,采用模型-数据分离(model-data separation)组织,素材来自MIPLIB库与人工构造。
然后他们拿这套评测,跑了一圈当下最强的几个 LLM。
回头再看一眼这张表,你会发现两件事。
第一,运筹建模这事儿对所有 LLM 都还挺难。
最强的模型也就刚过 50%,意味着差不多一半题目还是写不对。这跟我们日常那种"GPT 啥都会"的印象差距不小,一旦掉进运筹建模这种结构化、严谨性要求极高的领域,大模型的水分立刻就显出来了。
第二,更耐人寻味的:推理模型集体翻车。
o1、o3、DeepSeek-R1 这些专门为推理而生的模型,表现反而比对应的基础模型要差。不是差一点点,最高7.1个百分点(R1 vs V3的7.1%)。
论文给的解释挺有意思:
推理模型的多步推理能力,反而容易把一个早期的小幻觉一路放大,前面一步把约束写歪了,后面每一步推理都在歪的基础上继续歪,最终偏得离谱。
这是一篇评测方法论的论文,不是模型论文,但含金量很高。它没有去训一个新模型刷榜,而是回头修了一直被大家忽视的尺子:尺子歪了,量出来的东西都不准。
十几年来,优化建模评测这块的老路子,终于有人翻篇了。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-25
微信在金矿上孵化了啥?
2026-06-25
Google 把 FDE 改写成 Agent Engineer 这周,中国企业正在逼出另一种 FDE
2026-06-24
使用 Google AI Studio 轻松构建原生 Android 应用
2026-06-24
场景营销前端 AI Coding — AI Native 的视觉稿还原
2026-06-24
Claude Tag:你的公司正在被 AI 偷学
2026-06-24
精华:去哪儿网AI Coding研发平台实践,值得读三遍的样本
2026-06-24
做 FDE 的第一步不是写代码,而是把客户问题拆到能验收
2026-06-24
Claude学会常驻Slack,AI协作变天了
2026-04-15
2026-04-07
2026-04-07
2026-03-31
2026-04-24
2026-04-17
2026-03-31
2026-04-05
2026-04-02
2026-04-05