我要投稿

没想到，DeepSeek建模潜力被ORGEval挖出来了

发布日期：2026-06-22 13:06:15 浏览次数： 1603

作者：PaperAgent

微信搜一搜，关注“PaperAgent”

大家好，我是PaperAgent，不是Agent！

昨天刷到一篇 ICML workshop论文，看完真有点意思，它没去训新模型刷榜，而是回头修了一把被忽视的尺子——ORGEval，一套基于图论的优化模型评测方法。

研究团队把当时 8 个主流大模型拉过来跑了一圈。令人意外的是，三个最热的推理模型全部输给了非推理模型，DeepSeek-V3拿下Top1。

Table 3：Bench4Opt 主结果。DeepSeek-V3（Claude-Opus-4并列）整体建模准确率显著高于 o1、o3、R1

这篇论文由深圳大数据研究院、深圳国际工业与应用数学中心副研究员丁添领衔，他还是：智子芯元创始人。

相比于在过去两年常被讨论的明星公司，丁添所带领的智子芯元一直在默默发力“AI+数学”的研究与落地，论文重要贡献者林志航也担任智子芯元联合创始人。

ORGEval: Graph-Theoretic Evaluation of LLMs in Optimization Modeling

论文地址：https://arxiv.org/pdf/2510.27610
作者单位：香港中文大学（深圳）、深圳大数据研究院、深圳市河套学院、深圳国际工业与应用数学中心
论文会议地址：ICML 2026 CTB 研讨会 https://sites.google.com/view/icml-ctb/home

下面我把这事讲清楚。

01 传统评测的三座大山

刚毕业那会儿，我帮一个学物流的朋友补过运筹学。它干的事说白了就是：把现实里乱糟糟的问题，翻译成一个数学优化模型。

比如仓库最省钱排车次、工厂最划算定产线，把现实约束写成方程：变量、目标函数、约束，一个都不能漏。

写完丢给求解器（solver）算最优解。过去这事靠人，老练建模师工资极高。现在让LLM来写，但怎么判断它写得对不对？老办法是扔进求解器跑，看最优值跟标准答案对不对得上。

听上去挺合理对吧？但这套方法，硬伤一堆：

第一种翻车：碰巧蒙对了。

两个模型其实写得不一样，一个对一个错，但在特定参数下凑巧最优值相同，换一组参数立刻露馅。

第二种翻车：题目本身无解。

有些参数配置下问题无解，求解器报infeasible，两边都没答案，评测系统直接哑火。

第三种翻车：求解器跑不动。

有些混合整数线性规划（Mixed Integer Linear Programming，MILP）题目，跑几小时甚至几天都没结果，这意味着 RLHF 这种需要快速反馈的训练循环根本跑不起来。这正是论文重要贡献者林志航最熟悉的痛点——他此前在西湖心辰（30 亿估值）任CTO，全面负责过西湖大模型从 0 到 1 的训练。

一句话：老办法是让两个模型分别去考试对答案，但这考试本身就不公正。

02 ORGEval的降维打击

这就是 ORGEval 的反直觉之处。

它说：别费那个劲跑求解器了，直接看你写的模型和标准答案长得像不像

什么叫长得像？

论文将模型实例（参数化后的具体问题）表示为二分图（bipartite graph）：

这样一来，模型的对错问题，就转化成了一个纯图论问题：两张图是不是同构（isomorphic）？

也就是说，不用关心你给变量起的名字是 x 还是 y，不用关心你列约束的顺序是先写产量还是先写库存，只要图的骨架是一样的，那两个模型就是等价的。

Lemma C.1严格建立了这种等价关系：

这一步的好处是巨大的：

不用跑求解器
不会被参数耍
无解的问题也能比
跟数据量再大都没关系

03 但图同构本身，是个老大难问题

不过这条路也不是白送的。

学过算法的朋友应该知道，判断两张图是否同构，本身就是个出了名的硬骨头，一般情况下没有多项式时间算法。

有一个经典的近似办法，叫 WL-test（Weisfeiler-Lehman test），你可以把它想象成一种给节点反复染色的算法：每一轮根据邻居的颜色更新自己的颜色，几轮之后，如果两张图的颜色分布对不上，那肯定不同构。

WL-test的好处是快。坏处是：它有时会判错，两张实际上不同构的图，它有可能给出看起来同构的结论。在数学评测里，这种 false positive 是致命的。

那怎么办？

ORGEval 这篇论文真正的硬核贡献来了：

证明了一个充分条件：当一张图属于对称可分解（Symmetric Decomposable, SD）这一类时，WL-test是 100% 准确的。

Definition 3.1给出了 SD 的严格定义：

在此基础上，Theorem 3.1给出了核心保证：

即：在 SD 条件下，WL-test的着色分布相同 ⟺ 模型实例等价。

然后他们做了两件事：

写了一个自动检测算法，专门判断一张优化模型对应的图是不是 SD 的；

配合一套在SD条件下使用标准WL-test，对 SD 图给出可靠的同构判定。

Algorithm 1：Modeling Equivalence Detection完整流程

这套组合拳一打，就解决了 WL-test不靠谱的老问题，只在它能保证正确的范围内用它。

说白了，他们没有去硬刚图同构问题本身，而是聪明地圈出了一块WL-test保证正确的安全区，然后让评测只在这块安全区里跑。

04 Bench4Opt 跑分：反直觉的事情发生了

速度：多个数量级的跃升

他们在 MIPLIB（求解器社区的标准测试集）上抽了 75 道题分三档难度做对照：

Easy 档：solver 约 1 小时，ORGEval 0.21 秒；
Hard 档：solver > 1 小时，ORGEval 3.83 秒；
Open 档：solver 尚未解出，ORGEval 仍能在 32.07 秒内给出结论。

这不是单纯快，这是把不可能变成可行，某种意义上是智子芯元创始人丁添此前 Adam-mini（神经网络几何景观理论与高效训练算法） 工作的另一面，那次解的是训练侧效率瓶颈，这次解评估侧。

一致性：100% vs 35.62%

每个模型用 5 组随机参数测：

Solver 的可行性一致性平均只有 35.62%——即超过 60% 的模型会出现可行/不可行判断不一致的情况，这就是为什么需要换尺子。

真正反直觉的发现

把这把新尺子换上去之后，他们准备给 8 个主流模型打分。

光有评测方法不够，还得有题。

研究团队构建了 Bench4Opt 数据集，采用模型-数据分离（model-data separation）组织，素材来自MIPLIB库与人工构造。

然后他们拿这套评测，跑了一圈当下最强的几个 LLM。

回头再看一眼这张表，你会发现两件事。

第一，运筹建模这事儿对所有 LLM 都还挺难。

最强的模型也就刚过 50%，意味着差不多一半题目还是写不对。这跟我们日常那种"GPT 啥都会"的印象差距不小，一旦掉进运筹建模这种结构化、严谨性要求极高的领域，大模型的水分立刻就显出来了。

第二，更耐人寻味的：推理模型集体翻车。

o1、o3、DeepSeek-R1 这些专门为推理而生的模型，表现反而比对应的基础模型要差。不是差一点点，最高7.1个百分点（R1 vs V3的7.1%）。

论文给的解释挺有意思：

推理模型的多步推理能力，反而容易把一个早期的小幻觉一路放大，前面一步把约束写歪了，后面每一步推理都在歪的基础上继续歪，最终偏得离谱。

05 一点感想

这是一篇评测方法论的论文，不是模型论文，但含金量很高。它没有去训一个新模型刷榜，而是回头修了一直被大家忽视的尺子：尺子歪了，量出来的东西都不准。

十几年来，优化建模评测这块的老路子，终于有人翻篇了。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-25

微信在金矿上孵化了啥？

2026-06-25

Google 把 FDE 改写成 Agent Engineer 这周，中国企业正在逼出另一种 FDE

2026-06-24

使用 Google AI Studio 轻松构建原生 Android 应用

2026-06-24

场景营销前端 AI Coding — AI Native 的视觉稿还原

2026-06-24

Claude Tag：你的公司正在被 AI 偷学

2026-06-24

精华：去哪儿网AI Coding研发平台实践，值得读三遍的样本

2026-06-24

做 FDE 的第一步不是写代码，而是把客户问题拆到能验收

2026-06-24

Claude学会常驻Slack，AI协作变天了

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

大家都在问

微信在金矿上孵化了啥？

2026-06-25

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

为什么云端 Agent 基建这么难？

2026-06-06

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw