微信扫码
添加专属顾问
4月27-28日,芥末堆在北京举办以“中行独复,教育重构科技”为主题的GET2024春季教育科技大会。在4月27日下午的主论坛中,学而思技术总监、MathGPT负责人白锦峰以《基于Verifier的九章大模型(MathGPT)业务落地应用》为题进行了内容分享。
白锦峰首先分享了学而思为什么从数学切入做大模型,其中一个主要原因是数学是攻克大语言模型技术难点的天然好场景。此外,白锦峰还分析了通用模型与垂类模型各自的困境、MathGPT的训练过程,以及MathGPT训练中遇到的困难。
白锦峰表示,“学而思将K12全科的评估集合公开给业内,期待共同推动教育大模型的进步。同时,我们也发表了大模型数学论文,希望促进教育技术进步。”
以下为演讲实录,经编辑:
我今天分享的题目是《基于Verifier的九章大模型(MathGPT)业务落地应用》。“Verifier”直译过来是“验证器”。我们都知道大模型有幻觉,当大模型应用于教育的时候,幻觉问题是一个核心卡点,因此我们需要通过一种方法解决它,而引入Verifier是可行方式之一。
众所周知,国内外做大模型的机构非常多,如果大家留心去看各家大模型的切入点,绝大部分都是从语言、对话切入,这是为什么呢?因为ChatGPT在语言方面表现出惊人的天赋,所以大家群起追随,但我们另辟蹊径,从数学切入。我们的大模型的中文名字是“九章大模型”,与《九章算术》里的“九章”一样,英文是“MathGPT”。
为什么是Math?
我们去年做MathGPT的时候,很多大模型领域的专家、学者以及领导过来,他们问的第一个问题是“为什么你们要做数学?”“大模型做数学这条路可行吗?”今天在这里回答一下我们为什么要做数学这个问题。
首先,做数学的出发点是利他。数学是大语言模型最弱的地方,有时候连简单的加减乘除都算不对,但孩子学数学非常重要,大模型也需要教,于是我们选择数学作为切入口。
而且,数学是攻克大语言模型天然好场景。ChatGPT火之前有一篇论文是这么说的,我们已经观察到大模型具有所谓的涌现能力,什么是“涌现”?当模型在做一个数学问题,以及8位数的加法,参数从百亿(10B)到千亿(100B)以上的大规模之后,这个能力突然开始出现,这就是“涌现”。
大模型里为什么会提到“涌现”?大模型任务已经非常复杂,复杂到了很多时候并不能以传统的分析学或分析解构的视角去思考,于是就有了“涌现”。
涌现这个词来自复杂科学,技术领域很少见,生命就是典型的复杂科学。研究复杂科学的规律,实验素材的选择至关重要。孟德尔之所以能够发现遗传三定律,至关重要的原因是选择了豌豆,豌豆“闭花传粉,自花授粉”在有性生殖的物种中是一个特殊的存在。遗传底层的真相是父母基因的组合违反绝大部分人对遗传的直觉,也就是遗传底层是“量子化”的,而不是连续的。
回过头来说,数学是不是我们解决大模型里面的豌豆,是不是那个好场景?
大家都知道ChatGPT是通过预测下一个词来决定它如何学习。大模型现在唯一Work的第一性原理是:通过预测下一个词去Scale,站在语言模型的视角是合理的。那么,从数学的视角还合理吗?
举个例子,我们都知道高考会考填空题。如果做高考的填空题也是通过预测下一个词的方式,这显然有问题。为什么?因为即使考上清华、北大,或哈佛、耶鲁的学生,也没有可能看完一个题目之后,就填出答案,即使聪明的人类,也一定需要详细的思考步骤,才能解决问题。不是说前后词之间没有关系,而是不能直接预测出来。
还有大语言模型主要靠抓取互联网上的语料来预训练得到的,训练之后再做微调。这个过程乍一看挺对的,但仔细一想其实有问题。因为它假设了我们全部的知识都是线上化的。虽然互联网已经发展了20年,但还有很多知识没有完成线上化,一旦没有完成这个过程,大模型是不可能学会的。
仍然以数学为例。没有完成线上化过程的原因,有的是太难,有的是太容易。比如孩子会做很多的加减乘除算术题,但在网上很少看到这些题目,因为这样的过程在搜索、检索或信息获取的过程中不提供信息价值,但大模型需要这样的知识,孩子的练习也需要这样的知识。因此我们需要补上这些知识。
接下来是我们为什么做数学的第二个原因——使命。学而思于2003年成立时就是以数学起家。同时,数学还是人类思维能力提升的最重要的手段之一,严谨的逻辑思维推导过程是需要训练的,没有哪个孩子生下来就会。
第三点是方法。AlphaGeometry搞定了几何证明难题,这进一步印证我们选择大模型解决数学的可行性。数学难点在于联想能力,推导过程是其次的。生成式大模型最大的优势在于联想,所以用大模型做数学从方法上来说是可行的。虽然一开始的起点低,但是增长曲线有可能非常陡峭,可能比语言会更让人类惊艳。
综上,数学是攻克大模型技术的好场景。也是我们的立家之本,使命当为。AlphaGeometry的成功更进一步印证了大模型解决数学的潜力。
第二个问题,为什么要解决逻辑推理的思维能力和幻觉?因为无论是大模型还是人,整个学习过程都需要经历四个阶段:记忆、联想、推理和泛化。一个孩子最开始让大家感觉到他比较机智是因为这个孩子的记忆力很好,慢慢就会发现,这个孩子的联想能力很好,他可以联想到很多事,当上学之后,下一步他需要解决推理的严谨。幻觉是联想能力的副作用,没有联想就不会有幻觉。反过来说,只要联想能力够厉害,就一定会有幻觉。那么模型如何解决幻觉?
这就需要去检验模型输出的观点,检验分为两点:
第一,为观点找到事实依据
第二,逻辑自洽。
小孩子在成长过程中,也会经历一个“胡说八道”幻觉很重的阶段,解决方法同样是为自己的观点找到依据,同时让自己的观点逻辑自洽。为观点找到依据就需要Verifier,逻辑自洽就需要逻辑推理能力。
最后一个阶段是泛化。总体来说大模型的泛化应该要远远差于人类。以数学为例,即使一个孩子考到清华、北大,总共加起来最多做10万道题,但是即使到目前为止,大模型训练了100倍,训练过千万题,能力可能比人差得多。核心在于大模型的举一反三能力弱很多。如果这个层面有所突破,那么强人工智能就会出现。
目前,大模型已经解决了联想能力,下一步是如何把推理解决好,完成前三步,这个过程需要时间。
为什么是大模型?
人工智能发展了很久,但直到大模型诞生之后,大家觉得大模型很厉害,究竟厉害在什么地方?
核心1:从整合性到任务Scaling Law的“涌现”
任务跟模型结构解绑是多任务整合的基础
单任务超越GPT4意义有限,大规模复杂任务的整合性才是大模型的真正价值所在
理想情况是多个任务具有协同与促进,下限是两个任务不冲突
核心2:从指令跟随准确率到自然语言编程
高准确率的指令跟随是自然语言变成的必要条件
为什么是大模型和教育?
《乔布斯传》中提到,乔布斯2011年跟比尔盖茨会面讨论教育和未来学校的问题时,说了一个现象:“自21世纪,人类在科技上的迅速发展,几乎改变了所有的领域,为什么唯独在学校教育上,影响小的令人吃惊?”
人类天生对两个方面不可或缺,物质方面是水和能量;另外是人类不能或缺信息。
但是教育在信息之上,我们希望教育具有获取知识和获取智慧的目的。
但21世纪绝大部分的发展过程都在解决信息化、数字化,基本上没有涉及知识和智慧。大模型通过大规模的预训练,基本上是从知识切入的,所以有希望对教育做出改变。
论“通用模型”和“垂类模型”
目前在做模型的有两拨团队:做通用模型和做垂类模型的。通用和垂类的差别是什么?
通用模型的困境:如何评估模型的性能
无论术语上如何强调通用,模型总是需要构建集合进行评估,集合一定总体的有偏采样
即使建立了一个无偏采样集合,只要根据评测指导模型优化,那你就在偏向你观测的集合,潜台词是在牺牲你没有观察到。
垂类模型的困境:细分的边界如何确定
教育是一个垂类,还是文科、理科是一个垂类,亦或者作文是一个垂类?
总结一下:
数学是大模型能力提升的一个好场景
联想能力是目前生成AI的核心优势,幻觉是优势的副作用
整合复杂任务,Prompt Engineering实现自然语言编程是大模型的核心
大模型有可能在知识获取完成供给侧升级,让个性化教育成为可能
面向行业的垂类模型长期都会很有价值
学而思自去年5月正式启动研发大模型,8月24日发布内测版的MathGPT官网,11月4日获批大模型牌照,今年2月在MathEval榜单的数学能力评测中登顶。
为什么是学而思来做?
为什么是学而思来做?有人会问,数学是好场景,你们有志去做,这条曲线可能确实比较陡峭,但为什么不是别家?
学而思来做数学大模型的原因是,目前我们公司的技术研发和教研人员超3000人,研发经费也很高。只有资源的大规模投入,才能保证将来的产出。
做大模型如何才能实现个性化教育?我们通过大模型与检索增强生成(RAG,Retrieval-augmented Generation)技术,使所有知识内容具有一致性。这个能力一边指向知识库,解决幻觉问题;另一边是用户画像库,解决个性化问题。
MathGPT的训练过程
MathGPT的训练过程包括预训练、有监督微调、强化学习三个阶段,其中最要强调的是强化学习。为什么说数学的曲线会比较陡峭?因为大部分的数学题都有答案,有答案就意味着我们能做大规模的仿真,能够仿真是做好强化学习的核心要素。
大模型学习数学的方式和一个孩子很像,孩子需要看大量的数学书自学;老师给孩子讲解标准的解体套路;之后孩子做多轮练习,老师批改反馈。对应这三个阶段,大模型先用海量的讲义、题库和教辅进行预训练;再通过大量步骤清晰的解题数据做有监督的微调;最后用奖励模型给解题结果以反馈。
MathGPT训练中的困难
刚刚说了很多好处,但MathGPT在训练中也遇到了困难。目前,大模型掌握一条定律方式只有通过大量的例子让它自己悟到。
以加法交换律a+b=b+a为例,我们告诉别人的时候,他可以听懂这个定律,但告诉模型不行,需要举1+2=2+1、3+5=5+3,甚至A+C=C+A等大规模的例子,大模型才能悟到这两个数字可以互换。目前模型没有办法接受概念(定律)的直接输入,只能通过一个个例子自己学会,这是大模型目前存在的问题。
刚刚提到九章大模型登顶MathEval榜单(https://matheval.ai/),评估的这些能力中的集合都有参考依据,整体评估下来我们目前排第一。
如何解决幻觉?
来看一道题目,王老师需要为40名学生购买足球,每个足球的价格是48元,王老师还需要为这些足球支付一定的运费,运费是每个足球价格的八分之一,王老师一共需要支付多少钱?
第一轮:式子列对了,48*40*1/8+48*40,但计算48*40算错了,算成2880了;第二轮:我们让它在犯错的这一步重新尝试,48*5+48*40=48*45,换了种方式,做对了,因为先算40*1/8更简单。
因此,如何让大模型和人做的效果一样呢?那就是让大模型做很多遍,每做一遍都检查步骤,如果做的答案都一样,并且步骤也对,我们就认为它大概是对的,做了N多遍之后,幻觉问题得到大幅度解决。
目前,我们累计生产了600多万道题目,答案正确率可以达到96%,解析优良率可以达到95%。试题生成成本降低为原来的十分之一。只有供给侧效率提高,才能解决教育的个性化问题。
评估一个孩子难,评估一个模型同样难,学而思将K12全科的评估集合公开给业内,期待共同推动教育大模型的进步。同时,我们也发表了大模型数学论文,希望促进教育技术进步。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。