2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

没想到,DeepSeek建模潜力被ORGEval挖出来了

发布日期:2026-06-22 13:06:15 浏览次数: 1603
作者:PaperAgent

微信搜一搜,关注“PaperAgent”

推荐语

DeepSeek-V3在ORGEval评测中意外夺冠,揭示传统大模型评测的盲区。

核心内容:
1. 传统大模型优化建模评测的三大缺陷
2. ORGEval如何通过图论方法精准评估模型
3. DeepSeek-V3等非推理模型的意外表现与启示

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

大家好,我是PaperAgent,不是Agent!

昨天刷到一篇 ICML workshop论文,看完真有点意思,它没去训新模型刷榜,而是回头修了一把被忽视的尺子——ORGEval,一套基于图论的优化模型评测方法。

研究团队把当时 8 个主流大模型拉过来跑了一圈。令人意外的是,三个最热的推理模型全部输给了非推理模型,DeepSeek-V3拿下Top1

Table 3:Bench4Opt 主结果。DeepSeek-V3(Claude-Opus-4并列)整体建模准确率显著高于 o1、o3、R1

这篇论文由深圳大数据研究院、深圳国际工业与应用数学中心副研究员丁添领衔,他还是:智子芯元创始人

相比于在过去两年常被讨论的明星公司,丁添所带领的智子芯元一直在默默发力“AI+数学”的研究与落地,论文重要贡献者林志航也担任智子芯元联合创始人

ORGEval: Graph-Theoretic Evaluation of LLMs in Optimization Modeling
论文地址:https://arxiv.org/pdf/2510.27610
作者单位:香港中文大学(深圳)、深圳大数据研究院、深圳市河套学院、深圳国际工业与应用数学中心
论文会议地址:ICML 2026 CTB 研讨会 https://sites.google.com/view/icml-ctb/home

下面我把这事讲清楚。

01 传统评测的三座大山

刚毕业那会儿,我帮一个学物流的朋友补过运筹学。它干的事说白了就是:把现实里乱糟糟的问题,翻译成一个数学优化模型。

比如仓库最省钱排车次、工厂最划算定产线,把现实约束写成方程:变量、目标函数、约束,一个都不能漏。

写完丢给求解器(solver)算最优解。过去这事靠人,老练建模师工资极高。现在让LLM来写,但怎么判断它写得对不对?老办法是扔进求解器跑,看最优值跟标准答案对不对得上。

听上去挺合理对吧?但这套方法,硬伤一堆:

第一种翻车:碰巧蒙对了。

两个模型其实写得不一样,一个对一个错,但在特定参数下凑巧最优值相同,换一组参数立刻露馅。

Appendix D Example 1:求解器返回相同最优值但模型结构错误

第二种翻车:题目本身无解。

有些参数配置下问题无解,求解器报infeasible,两边都没答案,评测系统直接哑火。

Appendix D Example 3:不可行问题无法通过求解器评估

第三种翻车:求解器跑不动。

有些混合整数线性规划(Mixed Integer Linear Programming,MILP)题目,跑几小时甚至几天都没结果,这意味着 RLHF 这种需要快速反馈的训练循环根本跑不起来。这正是论文重要贡献者林志航最熟悉的痛点——他此前在西湖心辰(30 亿估值)任CTO,全面负责过西湖大模型从 0 到 1 的训练。

一句话:老办法是让两个模型分别去考试对答案,但这考试本身就不公正。

Figure 2:评估框架对比:理想目标、旧做法、本文方法

02 ORGEval的降维打击

这就是 ORGEval 的反直觉之处。

它说:别费那个劲跑求解器了,直接看你写的模型和标准答案长得像不像

Figure 1:ORGEval评估流水线总览

什么叫长得像?

论文将模型实例(参数化后的具体问题)表示为二分图(bipartite graph)

Figure 3: 把模型实例转成加权二分图
Definition 7:对加权二分图实例表示给出了正式定义

这样一来,模型的对错问题,就转化成了一个纯图论问题:两张图是不是同构(isomorphic)?

也就是说,不用关心你给变量起的名字是 x 还是 y,不用关心你列约束的顺序是先写产量还是先写库存,只要图的骨架是一样的,那两个模型就是等价的。

Lemma C.1严格建立了这种等价关系:

这一步的好处是巨大的:

  • 不用跑求解器
  • 不会被参数耍
  • 无解的问题也能比
  • 跟数据量再大都没关系

03 但图同构本身,是个老大难问题

不过这条路也不是白送的。

学过算法的朋友应该知道,判断两张图是否同构,本身就是个出了名的硬骨头,一般情况下没有多项式时间算法。

有一个经典的近似办法,叫 WL-test(Weisfeiler-Lehman test),你可以把它想象成一种给节点反复染色的算法:每一轮根据邻居的颜色更新自己的颜色,几轮之后,如果两张图的颜色分布对不上,那肯定不同构。

Algorithm 2:WL test for MILP/LP Graphs

WL-test的好处是快。坏处是:它有时会判错,两张实际上不同构的图,它有可能给出看起来同构的结论。在数学评测里,这种 false positive 是致命的。

那怎么办?

ORGEval 这篇论文真正的硬核贡献来了:

证明了一个充分条件:当一张图属于对称可分解(Symmetric Decomposable, SD)这一类时,WL-test是 100% 准确的。

Definition 3.1给出了 SD 的严格定义:

在此基础上,Theorem 3.1给出了核心保证:

即:在 SD 条件下,WL-test的着色分布相同 ⟺ 模型实例等价

然后他们做了两件事:

  1. 写了一个自动检测算法,专门判断一张优化模型对应的图是不是 SD 的;
Algorithm 3:判断图是否为SD
  1. 配合一套在SD条件下使用标准WL-test,对 SD 图给出可靠的同构判定。
Algorithm 1:Modeling Equivalence Detection完整流程

这套组合拳一打,就解决了 WL-test不靠谱的老问题,只在它能保证正确的范围内用它。

说白了,他们没有去硬刚图同构问题本身,而是聪明地圈出了一块WL-test保证正确的安全区,然后让评测只在这块安全区里跑。

04 Bench4Opt 跑分:反直觉的事情发生了

速度:多个数量级的跃升

他们在 MIPLIB(求解器社区的标准测试集)上抽了 75 道题分三档难度做对照:

Table 1 ORGEval 与 solver 在三档难度下的速度对比
  • Easy 档:solver 约 1 小时,ORGEval 0.21 秒
  • Hard 档:solver > 1 小时,ORGEval 3.83 秒
  • Open 档:solver 尚未解出,ORGEval 仍能在 32.07 秒内给出结论。

这不是单纯快,这是把不可能变成可行,某种意义上是智子芯元创始人丁添此前 Adam-mini(神经网络几何景观理论与高效训练算法) 工作的另一面,那次解的是训练侧效率瓶颈,这次解评估侧。

一致性:100% vs 35.62%

每个模型用 5 组随机参数测:

Table 2:模型一致性对比(5组随机参数下的评估稳定性)

Solver 的可行性一致性平均只有 35.62%——即超过 60% 的模型会出现可行/不可行判断不一致的情况,这就是为什么需要换尺子。

真正反直觉的发现

把这把新尺子换上去之后,他们准备给 8 个主流模型打分。

光有评测方法不够,还得有题。

研究团队构建了 Bench4Opt 数据集,采用模型-数据分离(model-data separation)组织,素材来自MIPLIB库与人工构造。

论文Table 4:Bench4Opt包含的优化问题类型

然后他们拿这套评测,跑了一圈当下最强的几个 LLM。

Table 3:Bench4Opt 主结果。SOTA 标红

回头再看一眼这张表,你会发现两件事。

第一,运筹建模这事儿对所有 LLM 都还挺难。

最强的模型也就刚过 50%,意味着差不多一半题目还是写不对。这跟我们日常那种"GPT 啥都会"的印象差距不小,一旦掉进运筹建模这种结构化、严谨性要求极高的领域,大模型的水分立刻就显出来了。

第二,更耐人寻味的:推理模型集体翻车。

o1、o3、DeepSeek-R1 这些专门为推理而生的模型,表现反而比对应的基础模型要差。不是差一点点,最高7.1个百分点(R1 vs V3的7.1%)

论文给的解释挺有意思:

推理模型的多步推理能力,反而容易把一个早期的小幻觉一路放大,前面一步把约束写歪了,后面每一步推理都在歪的基础上继续歪,最终偏得离谱。

05 一点感想

这是一篇评测方法论的论文,不是模型论文,但含金量很高。它没有去训一个新模型刷榜,而是回头修了一直被大家忽视的尺子:尺子歪了,量出来的东西都不准。

十几年来,优化建模评测这块的老路子,终于有人翻篇了。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询