微信扫码
添加专属顾问
1. 由用户自己提出问题,因此题目不是静态的,理论上想进行刷题刷分是不可能的;
2. 由用户在两个匿名模型回答中选择更优的一个,尽可能保证了公平性;
3. 用类似天梯的Elo评分机制,会考虑不同水平模型间的评价区分度
下面贴几个Yi-Large的成绩(直接用了ppt里的图都是5.21的截图,最近掉到第9了,不过应该还是国内第一,国际上也仅次于openai,anthropic和google)
最近也有很多人对LMSYS有一些疑问,这里也有一个我自己一直在思考的问题,大多数用户的偏好应不应该是模型优化的方向?LMSYS和我们自己在实际产品中做的A/B测试有很多的相似点,在两个答案质量相似的情况下,用户会偏向于选择答案长的那个。从我个人而言,是更喜欢简洁的答案的,但如果大多数用户都喜欢长的,模型是不是就应该回答长的?
除了LMSYS以外,让我们对自己的模型更有信心的一个signal是我们在自己的产品中对Yi-Large和GPT4做了A/B测试,用户指标(留存、付费)都没有下降,对Yi-Large和GPT3.5进行A/B测试,用户指标上升20%以上。后续针对应用对模型进行了优化,与GPT4做A/B测试,用户指标均有所上升。这也许就是应用公司有能力训练自己模型的价值吧。
这里顺道回答一下关于Yi-Large常见的问题:
LMSYS里面的Yi-Large-Preview和Yi-Large有什么区别,怎么差了20多分?Yi-Large-Preview是模型的原始版,更能反映模型的真实能力;Yi-Large是API platform上的版本,为API serving做了一些优化,牺牲了一些模型性能。这里可以期待一下下一个版本,应该比Yi-Large-Preview还能有所提升
为什么Yi-Large的体感比较一般?零一万物之前主要市场是global market,在预训练中没有配足够的中文数据,所以很多问题中文可能答不对,用英文问就能对了。这个在下一版本中也会有比较大的提升。
然后就进入正题吧。
“Scaling laws in the context of machine learning, particularly in the field of deep learning and AI, refer to empirical relationships that describe how certain performance metrics scale with various resources, such as the amount of data, the size of the model (number of parameters), or the amount of computational power. These laws are often derived from experimental results and are used to predict and guide the design of large-scale AI systems. “
简单来说,就是资源越多,模型能力越强。这个看起来是一个很显然的事情。当模型结构固定时,肯定是消耗算力多的模型能力更强。所以很多人质疑scaling law是没有道理的,质疑仅依靠scaling law就能通向agi是有可能的。
在过去几年,我们已经看到了大量模型能力随算力上升的例子了,随便放两张图:
回到论文里Scaling Law的定义,这里被最广泛引用的文章是OpenAI的Scaling Laws for Neural Language Models(其实有更早的Scaling Law的文章,来自百度研究院,但这篇的认可度更高)。
“We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitude. Other architectural details such as network width or depth have minimal effects within a wide range. Simple equations govern the dependence of overfitting on model/dataset size and the dependence of training speed on model size. These relationships allow us to determine the optimal allocation of a fixed compute budget. Larger models are significantly more sample efficient, such that optimally compute-efficient training involves training very large models on a relatively modest amount of data and stopping significantly before convergence.“
为了真正理解Scaling Law,最好把这篇文章反复阅读几遍,并阅读里面的大部分引用,特别是openai之前的工作,类似critical batch size这些关键定义的前置论文。
为了简化理解,主要记住文章中的公式1-5就可以。
这个公式有N多用处,这里主要讲了三个:
首先,这个公式在形式化上对广义scaling law进行了建模,这里这有两个变量N和D,其他都是需要拟合的参数,所以N越大,Loss越小(模型能力越强);同理,D越大,模型能力越强。
其次,在给定compute(算力)条件下,可以根据该公式选择最优的数据和模型参数分配。这里还要用到一个简单的compute估计公式C=6ND。当给定训练flops的时候,就可以根据这两个公式得到loss最小的组合。
这里常常会有人argue说llama3用了远超过8B模型所能承载的数据,是不是说明scaling law不work了。首先,最优参数估计只是在给定计算条件下的loss最优,当参数量固定,数据量上升的时候,根据scaling law,loss肯定是会更小的,只是compute变更大了(不满足compute optimal中compute固定的假设)。其次,训练compute和推理compute是不一样的概念。训练中的compute optimal,举个简单的例子,如果有4倍算力,扩两倍的数据和两倍的模型参数效果比单纯扩4倍数据要好。但推理中的compute optimal则是模型越小越好。但训练是一次性消耗,推理是长期的消耗。因此,现在的模型越来越考虑推理效率,通过数据量来弥补模型小带来的差距,花更多的compute在训练上,来保证推理时又有好的性能又有低的成本。
最后,是这个公式在预训练中最大的作用,预测loss。因为除了N和D之外,其他都是需要拟合的参数,我们只需要在N和D都比较小的时候无限打点,用一点点算力就可以得到一个可以预测比较大模型loss的scaling 函数了。要注意这里的loss是收敛loss,不是所有数据训练完的loss。再分享两个小tricks,1. 实践中我们的做法会固定数据来进行拟合,这样loss可比性更强;2. 拟合的时候通常会做到最后要训练的模型十分之一的size,不然用特别小的模型打点拟合出来的系数放大几千倍以后容易失真。
基于scaling law 的可预测性又可以做很多模型结构探索,训练方法探索的比较。比如大家非常关注的Mamba,RWKV,transformer,只要比较拟合的时候哪个系数更大,模型loss就更小,效果就更好。再比如我们做结构变化的时候,不同的normalization,不同的optimization方法都可以用scaling law拟合来比较,就不用担心小模型的结论不能推广到大模型上了,因为scaling law比较的是趋势,很多在小模型上比较好的方法由于斜率低,当模型变大就不管用了。
对The Bitter Lesson就不用多说了,建议反复阅读,全文背诵。用一句话总结就是能有效利用计算能力的方法通常会有好的效果。
在OpenAI研究员Jason Wei的一天工作的时间表中两次出现了和bitter lesson相关的内容。和OpenAI的很多员工交流的时候也多次提到了要全文背诵bitter lesson。
这里第二条还挺有意思的,每天只花5分钟思考算法的改动,然后觉得算法改动比较risky,就选择更安全的scale计算和数据的方案。
顺道分享了一个和ex-MSRA研究员讨论的斜率理论。之前的研究大多是在小算力条件下开展的,所以对一个算法,我们会更加关心算法的起点,研究的核心目标是通过各种算法、模型结构改进来提高模型的性能。在同等算力条件下,改进后的模型通常会有比较好的效果,而且扩大一些算力规模效果也都还行。但大家通常忽略了为了提高模型的起点,这些改动通常相当于给模型加入了一些prior,这些prior往往会损失算法在scale up时的斜率。当算力扩大10倍,100倍的时候,起点该来的performance gain已经远远比不上斜率带来的performance损失了。这也是为什么在scaling law时代最简单的结构往往会有更好的效果。
讲到这儿就可以说一些去年沸沸扬扬的Yi-34B抄袭llama的事情了。首先,先区分一下套壳(直接用llama模型改个名字),CPT(基于llama模型做continue pretraining)和借鉴“llama architecture”(用和llama一样的架构,用自己的数据和训练方法训练模型)。两个变量名没有改回来导致大家都以为Yi模型抄袭了llama,还故意改了名字,其实只是实验需要(谁改名字改的这么简单粗暴?),但还是要为我们开源不规范道歉。所以,Yi-34B是用自己的数据和训练方法从头开始训练的模型(这边用过的人都知道,模型参数和回答风格和llama没有半毛钱关系)。解释完这些,可以展开讨论一些借鉴“llama architecture”的事情。我自己从来不认可“llama architecture”的说法,可以看llama的paper关于“llama architecture”的部分,follow transformer结构做了三个改动:pre-normalization(from GPT3),SwiGLU(from PaLM),RoPE(from GPTneo)。也都是其他之前模型改动的组合。
所以,我更认同Yi Tay的观点,与其说是“llama architecture”不如说是“Noam architecture”,因为大多数改进和Noam都有关系。
从Yi-34B以后,大家开源模型的时候也都统一在配置文件里面用“llama architecture”来定义模型了,比如qwen、deepseek、mistral,发现这样开发者迁移成本低,模型适配简单,也算是那次争论的一个贡献吧。
有个非常有意思的点,关于“llama architecture”的三个改进,是不是也在模型上增加了prior。首先,pre-normalization在模型变大变深的时候是不如post-normalization的,我们在训练Yi-34B之前就得到了这个结论,只是在34B的size上pre-normalization还是更好一些。然后,SwiGLU是以牺牲计算效率为代价得到的训练效率的提升,在更大size的模型上是不是依然如此不是很确定(至少我们实验的size上SwiGLUE还是更优一些)。最后,RoPE其实在现在的训练中会使用5%-10%的额外算力,因此也不是free lunch,在更大size的模型上还是会慢慢变成bottleneck的。
最后,可以用OpenAI的研究员jbetker的blog来总结一下这部分。不同的模型结构在同样的数据上训练足够长的时间,都会收敛到相同的位置,diffusion,convnet,autoregressive都会收敛在一个点,唯一的区别是计算效率。所以模型的能力本质上和模型结构、超参数、优化方法都没有关系,只和数据有关,所以“ChatGPT”,“Bard”,“Claude”这些模型名字只和他们的训练数据相关。简单地说就是,数据决定了模型的智能,算法是在优化达到收敛的效率,因为算力有限,优化目标是单位算力下能产生的最大智能水平。
上面的分析其实引出了另一个重要的topic,优化数据质量。这里用了两张Yi的tech-report里描述的我们处理训练数据的流程。实际处理中,比图上看起来要复杂地多。说实话,这样的标准流程已经成为了各个大模型公司处理数据的标准流程。随着大家越来越重视数据,大家的数据质量和模型performance也都越来越高。这里面的差距更多在每一步处理的细节,每一步的细节都是魔鬼。像llama3这种用15T token才训练出这样水平的模型,肯定是忽视了很多细节。这里顺便吹个牛,给我训练llama3.1 403B四分之一的算力,就能训练出更强的模型。另外有一个小tip是一定要让训练模型的同学亲自看数据,很多大模型公司数据团队和模型团队是分开的,这个是非常不合理的。零一在初期没有启动模型训练,都是让所有算法同学亲自看数据,每个人至少看了上万条训练语料,算法同学和数据同学一起迭代了很多个版本的数据,不断提升数据质量。这应该是Yi-34B模型比其他模型效果要好的最重要的原因。
谈到数据很多人都关心数据会用尽的问题,其实这个似乎不是个问题。首先,由于llm出现,现在互联网上的数据比之前要多很多;其次,有大量的合成数据的方法;最后,多模态数据也可以提供更多的数据源。
关于合成数据有一个很有意思的现象,在用不同年份的数据训练llm的时候,发现最近几年的效果明显要好,原因就是这两年的数据中有大量llm生成的数据(比如知乎回答)。这是不是说明模型学习到的知识已经比平均水平的人要强了?
多模态数据也会是有效的数据补充,“The Platonic Representation Hypothesis”提供了一个很有趣的视角,不同模态的数据会共享表示空间。我们在多模态模型的实验中证明了,多模态数据是可以增加智能水平的,但可能不如语言数据效率那么高。比如用2T language token训练模型A,2T language token + 500B image token训练模型B,2.5T language token训练模型C,最后的performance C>B>A。
最后,讨论一些人才的问题。很多人一直以来都有一个误区大模型的核心差距在人,国内的人不如硅谷的人。但如果论智力水平、研究能力,国内的人和硅谷的差距非常小,之前大家只是缺少在大规模集群上进行分布式机器学习的经验。但随着大模型公司的投入,这方面迅速补齐以后,国内的人才和硅谷的人才其实很接近。这里可以quote deepseek的一句话“前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人”。之前,国内缺少的是算法、infra、工程三位一体的人才,现在大量的new graduate,刚毕业没多久的年轻人在llm时代,在各个公司实习的时候经过了算法、infra、工程三位一体的培养,综合能力越来越强,可以说这一代人是AI native or LLM native的。还有一个很重要的点是要人均GPU数量,零一一直没有扩大算法团队的规模,就是未来保证每个算法同学能有超过1000张卡的使用量,这样才能保证研究顺利开展。
上面的分享更多是对上一阶段LLM工作的一个总结吧,在未来的工作中也不一定适用。随着技术的发展,很多模型上的low hanging fruits已经被摘的差不多了,比如数据数量、数据质量、合成数据。我自己最近有特别强的feeling已经到了要去take比较大的risk做fundamental算法研究的时候了。上一个阶段更多的是工程能力的红利,下一阶段可能比拼更多的是研究和工程结合的红利了吧。某种意义上说,现在已经是agi的雏形了,scaling law也必然能实现agi,但效率不一定特别高,fundamental research可能能探索出一条效率更高的实现AGI甚至是super intelligence的路径。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-19
从 BERT 标注到 Agent Skill:短文本标签体系的四次“工业革命”
2026-05-14
多轮 Agent 场景下,滴滴的 EAGLE-3 训推加速实践
2026-05-06
谁说 Mac 只能写代码?Google 官宣:M 芯片本地微调 Gemma 4 时代开启!
2026-04-20
用 Unsloth 微调 Embedding 模型,让你的 RAG 检索不再答非所问
2026-04-15
ComfyUI v0.19.0 更新:大量新节点、新模型、新修复与性能优化全面落地,工作流与训练能力再升级
2026-04-13
Agent 持续学习落地路径:先做 Traces,再做 Context,最后才微调模型 | Jinqiu Select
2026-03-23
养死四只龙虾的小白有感
2026-03-22
Mistral Forge 的真正意义:企业AI从“租用”走向“拥有”
2026-04-15
2026-04-13
2026-04-20
2026-05-06
2026-05-14
2026-06-19
2026-01-02
2025-11-19
2025-09-25
2025-06-20
2025-06-17
2025-05-21
2025-05-17
2025-05-14
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。