微信扫码
添加专属顾问
评估和比较大语言模型 (LLMs) 是一项艰巨的任务。我们 RLHF 团队在一年前就意识到了这一点,当时他们试图复现和比较多个已发布模型的结果。这几乎是不可能完成的任务:论文或营销发布中的得分缺乏可复现的代码,有时令人怀疑,大多数情况下只是通过优化的提示或评估设置来尽量提升模型表现。因此,他们决定创建一个地方,在完全相同的设置 (同样的问题,按相同的顺序提问等) 下评估参考模型,从而收集完全可复现和可比较的结果;Open LLM Leaderboard 就这样的背景下发布啦!
在一系列高调的模型发布后,它成为了机器学习社区及更广泛领域内的广泛资源,过去 10 个月中有超过 200 万的独立访问者。
每月约有 30 万社区成员通过提交和讨论使用这个平台,通常是为了:
然而,随着排行榜的成功以及模型性能的不断提升,也带来了挑战。经过一年多的激烈使用和大量社区反馈后,我们认为是时候进行升级了!因此,我们推出了 Open LLM Leaderboard v2!
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
(还是之前的链接)
以下是我们认为需要新排行榜的原因?
在过去的一年里,我们使用的基准测试已经被过度使用和饱和:
因此,我们决定完全更换 Open LLM Leaderboard v2 的评估!
我们开始寻找具有未污染、高质量数据集,使用可靠指标并测量模型关键能力的新基准测试。
我们决定涵盖以下一般任务:知识测试 (?) 、短期和长期上下文推理 (?) 、复杂数学能力以及与人类偏好高度相关的任务 (?) ,如指令遵循。
我们使用六个基准测试来涵盖这些任务。让我们简要介绍它们:
? MMLU-Pro (大规模多任务语言理解 - 专业版,) 。MMLU-Pro 是 MMLU 数据集的改进版本。MMLU 一直是多选知识数据集的参考。然而,最近的研究表明它既包含噪音 (一些问题无法回答) ,又太容易 (通过模型能力的进化和污染的增加) 。MMLU-Pro 向模型提供十个选择而不是四个,要求在更多问题上进行推理,并经过专家审查以减少噪音量。它比原版质量更高且更难。
? GPQA (研究生级别的谷歌问答基准,) 。GPQA 是一个极其困难的知识数据集,其中问题由领域专家 (生物学、物理学、化学等领域的博士水平) 设计,使得外行人难以回答但专家相对容易。问题经过多轮验证,以确保难度和准确性。数据集也只能通过网关机制访问,这减少了污染风险。(这也是为什么我们不提供来自此数据集的纯文本示例的原因,正如论文作者要求的那样) 。
? MuSR (多步软推理,) 。MuSR 是一个非常有趣的新数据集,由算法生成的复杂问题组成,长度约为 1000 字。问题包括谋杀之谜、物体放置问题或团队分配优化。为了解决这些问题,模型必须结合推理和非常长的上下文解析。很少有模型得分高于随机水平。
? MATH (数学启发式测试,5 级子集,) 。MATH 是一个由多个来源收集的高中级别竞赛问题的汇编,使用 Latex 一致地格式化方程和 Asymptote 格式化图形。生成的答案必须严格遵循特定的输出格式。我们只保留最难的问题。
? IFEval (指令遵循评估,) 。IFEval 是一个相当有趣的数据集,测试模型清晰遵循明确指令的能力,例如“包括关键词 x”或“使用格式 y”。模型被测试是否能够严格遵循格式指令,而不是实际生成的内容,从而可以使用严格的指标。
? ? BBH (大基准测试难题,) 。BBH 是 BigBench 数据集中 23 个具有挑战性的任务的子集,其中 1) 使用客观指标,2) 难度高,测量为语言模型未能超越人类基线,3) 包含足够多的样本以具有统计显著性。它们包含多步算术和算法推理 (理解布尔表达式、几何图形的 SVG 等) 、语言理解 (讽刺检测、名称消歧等) 和一些世界知识。BBH 的表现平均与人类偏好高度相关。我们期望这个数据集能够提供对特定能力的有趣见解,吸引人们的兴趣。
总的来说,我们的选择标准是:
选择新的基准测试并不是全部。我们还对排行榜进行了几项其他改进,将在下文进行简要介绍。
我们决定改变模型的最终得分。我们没有将每个基准输出得分相加,而是将这些得分标准化在随机基线 (0 分) 和最大可能得分 (100 分) 之间。然后我们平均所有标准化分数以获得最终平均得分并计算最终排名。例如,在一个每个问题包含两个选择的基准测试中,随机基线将获得 50 分 (满分 100 分) 。如果使用随机数生成器,您可能会在此评估中获得约 50 分。这意味着得分始终在 50 (如果基准不是对抗性的最低合理得分) 和 100 之间。因此,我们更改范围,使得 50 的原始分数为 0 的标准化分数。这对生成性评估如 IFEval 或 MATH 没有影响。
这个变化比看起来更重要,因为它可以看作是改变了每个基准在最终平均分中的权重。
在上图中,我们绘制了评估的平均得分,左侧为标准化得分,右侧为原始得分。如果看右侧,您会得出 MATH 5 级和 MMLU-Pro 是最难的基准 (原始平均值最低) 。然而,我们的两个最难评估实际上是 MATH 5 级和 GPQA,它们难得多 (博士水平的问题!) ——今天的大多数模型在它上面接近随机性能,因此在未标准化得分和标准化得分之间存在巨大差异,随机数基线得分为零分!
因此,这个变化也影响了整体模型排名。假设我们有两个非常难的评估,一个生成性和一个多选题,有两个选项样本。模型 A 在生成性评估中得 0 分,在多选题中得 52 分,模型 B 在生成性评估中得 10 分,在多选题中得 40 分。看原始平均值,您可能会得出模型 A 更好的结论,平均得分为 26,而模型 B 的平均得分为 25。然而,对于多选题基准,他们实际上都同样差 (!) :52 几乎是多选题评估中的随机分数,40 是不幸的随机分数。当取标准化得分时,A 得 0 分,而 B 得约 1 分。然而,在生成性评估中,模型 B 比 A 高出 10 分!如果我们取标准化平均值,B 的得分为 5,而 A 几乎为 0,因此排名非常不同。
一年前,我们选择使用 EleutherAI 的 Harness (lm-eval) 来进行我们的评估。它为多个任务提供了标准和稳定的实现。为了确保公平和可复现性,我们固定了所使用的版本。这使我们能够在完全相同的设置下比较所有模型,因为所有评估都是以完全相同的方式运行的,在相同的硬件上,使用相同的评估套件提交和参数。
然而随着lm-eval 的更新,某些任务或指标的实现发生了变化,这导致 1) 人们在更近期版本的 harness 上获得的评估结果和 2) 我们使用固定版本的结果之间出现了差异。
对于新版的 Open LLM Leaderboard,我们与 EleutherAI 团队 (尤其感谢Hailey Schoelkopf) 合作更新了 harness。
在功能方面,我们添加了对 delta 权重 (LoRA 微调/模型适配) 的支持、与排行榜兼容的日志系统以及高度请求的使用聊天模板进行评估。
在任务方面,我们花了几周时间手动检查所有实现和生成结果,修复了我们观察到的问题,如不一致的少样本样本、过于严格的句子结束标记等。我们为
排行榜任务实现创建了特定的配置文件,并正在添加一个测试套件,以确保评估结果随时间保持不变。
你可以在这里探索我们使用的可视化工具!
这将使我们能够保持版本的更新,以便将来添加新功能!
关于排行榜后端和指标已经说了很多。现在,让我们转向模型和模型选择/提交。
在过去的一年里,我们评估了超过 7500 个模型,观察到许多模型并没有被社区广泛使用。
最常用的通常是新的基础预训练模型,通常使用大量计算资源构建,社区可以随后进行微调以适应其用例 (如 Meta 的 Llama3 或阿里巴巴的 Qwen2) 。一些高质量的聊天或指令模型找到了一个庞大的用户社区,如 Cohere 的 Command + R,并成为社区实验的强大起点。♥️
然而,其他模型的故事可能不同,即使在排行榜上排名靠前。一些模型是实验性的,令人着迷且令人印象深刻的超过 20 个连续模型创建步骤的结合,通过微调或合并。
然而,这些模型提出了一些挑战:
为了在排行榜中突出高质量模型并优先评估最有用的模型,我们决定引入一个类别,称为“维护者推荐”⭐。
在这个列表中,您会发现来自各种来源的 LLM,由社区和 Hugging Face 团队手工挑选。我们包括像 Meta 或 Google 这样的公司,像 Cohere 或 Mistral 这样的初创公司,像 EleutherAI 或 NousResearch 这样的集体,以及许多其他用户发布的优秀模型。
该列表将根据社区建议和我们的观察不断发展,旨在尽可能包括最新的 SOTA LLM,并优先评估这些模型。
我们希望这也能使非机器学习用户更容易在排行榜上的众多模型中找到方向。
对于 Open LLM Leaderboard 的前一版本,评估通常以排队 (“先提交,先评估”) 的方式进行。随着用户有时一次提交许多 LLM 变体,Open LLM Leaderboard 在 Hugging Face 科学集群的空闲计算资源上运行,我们决定为提交的模型引入投票系统。社区将能够为模型投票,我们将优先运行票数最多的模型,将最受期待的模型排在优先队列的顶部。如果某个模型在集群满负荷时获得极高的票数,我们甚至可能考虑手动运行它而不是其他内部任务。
为避免垃圾投票,用户必须连接到他们的 Hugging Face 帐户才能投票,我们将保存投票记录。这个系统将帮助我们优先考虑社区热衷的模型。
最后,我们一直在努力改进和简化排行榜界面本身。
如果您是我们的常规用户之一,您可能已经注意到我们前端从上个月开始变得更快了。
这得益于 Gradio 团队的工作,尤其是,他开发了!它特别在客户端加载数据,使任何列选择或搜索几乎即时!你也可以在你自己的排行榜中重用它!
我们还决定将 FAQ 和关于标签移到它们自己的专用文档页面!
我们将开始添加和评估“维护者推荐”部分的模型 (见上文) ,并期待社区向新版排行榜提交他们的新模型!!
看看 Open LLM Leaderboard 之前版本的前 10 名模型,并与这个更新版本进行比较,一些模型的排名相对稳定 (如下加粗) :Qwen-2-72B instruct,Meta 的 Llama3-70B instruct,01-ai 的 Yi-1.5-34B chat,Cohere 的 Command R + model,以及最后来自 AbacusAI 的 Smaug-72B。
我们对 Qwen2-72B-Instruct 特别印象深刻,它比其他模型高出一大步,平均得分为 43.02 (尤其得益于其在数学、长范围推理和知识方面的表现) 。
目前的第二名模型,Llama-3-70B-Instruct (平均得分 36.67) ,在 GPQA 上与其预训练版相比失去了 15 分 (4.92 vs 19.67) !这引发了一个问题,即 Meta 团队对这个模型进行的广泛指令微调是否影响了一些专家/研究生级别的知识。
当然,这个排名只是排行榜的开始,我们期望它在更多模型得到评估后会很快改变。你可以查看队列状态,看看哪些模型正在运行!
| 排名 | 新排行榜排名 |
|---|---|
| ⭐ | Qwen/Qwen2-72B-Instruct |
| 2 | meta-llama/Meta-Llama-3-70B-Instruct |
| 3 | microsoft/Phi-3-medium-4k-instruct |
| 4 | 01-ai/Yi-1.5-34B-Chat |
| 5 | CohereForAI/c4ai-command-r-plus |
| 6 | abacusai/Smaug-72B-v0.1 |
| 7 | Qwen/Qwen1.5-110B |
| 8 | Qwen/Qwen1.5-110B-Chat |
| 9 | microsoft/Phi-3-small-128k-instruct |
| 10 | 01-ai/Yi-1.5-9B-Chat |
以下是排名变化的细节:
让我们以一些来自维护者团队的建议结束这些思考。
根据你的实际使用情况,你应该关注排行榜的各个方面。总体排名会告诉你哪个模型平均更好,但你可能对特定能力更感兴趣。
特别是,我们观察到我们的不同评估结果并不总是相互关联,如以下相关矩阵所示:
如你所见,MMLU-Pro 和 BBH 相关性较高。正如其他团队所指出的,这些基准测试也与人类偏好高度相关 (例如,它们倾向于与 LMSys 的聊天机器人竞技场中的人类判断一致) 。
我们的另一个基准,IFEval,针对聊天能力。它调查模型是否能够遵循精确指令。然而,这个基准使用的格式倾向于有利于聊天和指令微调的模型,预训练模型难以达到高性能。
如果你特别关注模型知识而不是对齐或聊天能力,最相关的评估可能是 MMLU-Pro 和 GPQA。
让我们看看这些更新的基准测试上的表现与我们之前版本排行榜的评估相比如何。
如我们所见,MMLU-PRO (橙色) 和 GPQA (黄色) 得分与 Open LLM Leaderboard v1 的 MMLU 得分合理相关。然而,我们注意到得分总体上低得多,因为 GPQA 难得多。因此,模型有很大的改进空间——这是个好消息 :)
MATH-Lvl5 显然对专注于数学能力的人很有趣。这个基准测试的结果通常与 GSM8K 的表现相关,除了某些异常值,如下图所示。
绿色点突出了在 GSM8K 上由于上述评估限制而之前得分为 0 但现在在新基准 MATH-Level5 上得分非常不错的模型。这些模型 (主要来自 01-ai) 在之前的格式中被严重惩罚。红色点显示了在 GSM8K 上得分高但在 MATH-Lvl5 上几乎为 0 的模型。
从我们目前对模型输出和行为的深入研究来看,基础模型的聊天版本有时在 MATH 上得分明显低于原始模型!这个观察似乎表明一些聊天微调程序可能会削弱数学能力 (根据我们的观察,使模型过于冗长) 。
MuSR,我们的最后一个评估,对长上下文模型特别有趣。我们观察到表现最好的模型具有 10K 及以上的上下文大小,并且它似乎足以特异性地区分长上下文推理。
让我们以对 Open LLM Leaderboard 未来的展望结束这篇文章!
就像 Open LLM Leaderboard 的第一个版本在过去一年推动了
模型开发的社区方法一样,我们希望新的版本 2 将成为开放和可复现模型评估的里程碑。
因为向后兼容和开放知识很重要,你仍然可以在找到所有之前的结果存档!
回顾 Open LLM Leaderboard 中评估的所有 7400 个模型的演变,我们可以注意到该领域的一些更广泛的趋势!例如,我们看到一个强烈的趋势,从更大的 (红点) 模型转向更小的 (黄点) 模型,同时提高性能。
这是该领域的好消息,因为较小的模型更容易嵌入,更节能/内存/计算效率更高,我们希望在新版本的排行榜中看到类似的进展模式。鉴于我们更难的基准,我们的起点要低得多 (黑点) ,所以让我们看看几个月后该领域会带我们到哪里 :)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-04
字节跳动CEO梁汝波最新万字分享深度拆解:这可能是2026年最重要的一堂管理课
2026-07-03
开发者转向 AI 应用工程,真正要迁移的是工程判断力
2026-07-02
不改一行代码,看透 AI Agent 的每一次调用
2026-07-02
AI 不缺智商缺纪律:一场 Harness 工程化实践
2026-07-02
天工 3.2 重磅升级:Skywork Tags 上线,给 Agent 一张工牌,邀其加入你的工作群聊
2026-07-02
Context Infra 会是 AI 领域的下一个热点
2026-07-01
一文了解|SkillScan 智能体技能安全扫描最佳实践
2026-07-01
协作的逆向演进:从 Agent 逻辑重构团队管理
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-14
2026-04-24
2026-04-22
2026-05-19
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。