学而思为什么从数学切入做大模型

发布日期：2024-05-31 06:36:25 浏览次数： 4433

作者：芥末堆

微信搜一搜，关注“芥末堆”

4月27-28日，芥末堆在北京举办以“中行独复，教育重构科技”为主题的GET2024春季教育科技大会。在4月27日下午的主论坛中，学而思技术总监、MathGPT负责人白锦峰以《基于Verifier的九章大模型（MathGPT）业务落地应用》为题进行了内容分享。

白锦峰首先分享了学而思为什么从数学切入做大模型，其中一个主要原因是数学是攻克大语言模型技术难点的天然好场景。此外，白锦峰还分析了通用模型与垂类模型各自的困境、MathGPT的训练过程，以及MathGPT训练中遇到的困难。

白锦峰表示，“学而思将K12全科的评估集合公开给业内，期待共同推动教育大模型的进步。同时，我们也发表了大模型数学论文，希望促进教育技术进步。”

以下为演讲实录，经编辑：

我今天分享的题目是《基于Verifier的九章大模型（MathGPT）业务落地应用》。“Verifier”直译过来是“验证器”。我们都知道大模型有幻觉，当大模型应用于教育的时候，幻觉问题是一个核心卡点，因此我们需要通过一种方法解决它，而引入Verifier是可行方式之一。

众所周知，国内外做大模型的机构非常多，如果大家留心去看各家大模型的切入点，绝大部分都是从语言、对话切入，这是为什么呢？因为ChatGPT在语言方面表现出惊人的天赋，所以大家群起追随，但我们另辟蹊径，从数学切入。我们的大模型的中文名字是“九章大模型”，与《九章算术》里的“九章”一样，英文是“MathGPT”。

为什么是Math？

我们去年做MathGPT的时候，很多大模型领域的专家、学者以及领导过来，他们问的第一个问题是“为什么你们要做数学？”“大模型做数学这条路可行吗？”今天在这里回答一下我们为什么要做数学这个问题。

首先，做数学的出发点是利他。数学是大语言模型最弱的地方，有时候连简单的加减乘除都算不对，但孩子学数学非常重要，大模型也需要教，于是我们选择数学作为切入口。

而且，数学是攻克大语言模型天然好场景。ChatGPT火之前有一篇论文是这么说的，我们已经观察到大模型具有所谓的涌现能力，什么是“涌现”？当模型在做一个数学问题，以及8位数的加法，参数从百亿（10B）到千亿（100B）以上的大规模之后，这个能力突然开始出现，这就是“涌现”。

大模型里为什么会提到“涌现”？大模型任务已经非常复杂，复杂到了很多时候并不能以传统的分析学或分析解构的视角去思考，于是就有了“涌现”。

涌现这个词来自复杂科学，技术领域很少见，生命就是典型的复杂科学。研究复杂科学的规律，实验素材的选择至关重要。孟德尔之所以能够发现遗传三定律，至关重要的原因是选择了豌豆，豌豆“闭花传粉，自花授粉”在有性生殖的物种中是一个特殊的存在。遗传底层的真相是父母基因的组合违反绝大部分人对遗传的直觉，也就是遗传底层是“量子化”的，而不是连续的。

回过头来说，数学是不是我们解决大模型里面的豌豆，是不是那个好场景？

大家都知道ChatGPT是通过预测下一个词来决定它如何学习。大模型现在唯一Work的第一性原理是：通过预测下一个词去Scale，站在语言模型的视角是合理的。那么，从数学的视角还合理吗？

举个例子，我们都知道高考会考填空题。如果做高考的填空题也是通过预测下一个词的方式，这显然有问题。为什么？因为即使考上清华、北大，或哈佛、耶鲁的学生，也没有可能看完一个题目之后，就填出答案，即使聪明的人类，也一定需要详细的思考步骤，才能解决问题。不是说前后词之间没有关系，而是不能直接预测出来。

还有大语言模型主要靠抓取互联网上的语料来预训练得到的，训练之后再做微调。这个过程乍一看挺对的，但仔细一想其实有问题。因为它假设了我们全部的知识都是线上化的。虽然互联网已经发展了20年，但还有很多知识没有完成线上化，一旦没有完成这个过程，大模型是不可能学会的。

仍然以数学为例。没有完成线上化过程的原因，有的是太难，有的是太容易。比如孩子会做很多的加减乘除算术题，但在网上很少看到这些题目，因为这样的过程在搜索、检索或信息获取的过程中不提供信息价值，但大模型需要这样的知识，孩子的练习也需要这样的知识。因此我们需要补上这些知识。

接下来是我们为什么做数学的第二个原因——使命。学而思于2003年成立时就是以数学起家。同时，数学还是人类思维能力提升的最重要的手段之一，严谨的逻辑思维推导过程是需要训练的，没有哪个孩子生下来就会。

第三点是方法。AlphaGeometry搞定了几何证明难题，这进一步印证我们选择大模型解决数学的可行性。数学难点在于联想能力，推导过程是其次的。生成式大模型最大的优势在于联想，所以用大模型做数学从方法上来说是可行的。虽然一开始的起点低，但是增长曲线有可能非常陡峭，可能比语言会更让人类惊艳。

综上，数学是攻克大模型技术的好场景。也是我们的立家之本，使命当为。AlphaGeometry的成功更进一步印证了大模型解决数学的潜力。

第二个问题，为什么要解决逻辑推理的思维能力和幻觉？因为无论是大模型还是人，整个学习过程都需要经历四个阶段：记忆、联想、推理和泛化。一个孩子最开始让大家感觉到他比较机智是因为这个孩子的记忆力很好，慢慢就会发现，这个孩子的联想能力很好，他可以联想到很多事，当上学之后，下一步他需要解决推理的严谨。幻觉是联想能力的副作用，没有联想就不会有幻觉。反过来说，只要联想能力够厉害，就一定会有幻觉。那么模型如何解决幻觉？

这就需要去检验模型输出的观点，检验分为两点：

第一，为观点找到事实依据

第二，逻辑自洽。

小孩子在成长过程中，也会经历一个“胡说八道”幻觉很重的阶段，解决方法同样是为自己的观点找到依据，同时让自己的观点逻辑自洽。为观点找到依据就需要Verifier，逻辑自洽就需要逻辑推理能力。

最后一个阶段是泛化。总体来说大模型的泛化应该要远远差于人类。以数学为例，即使一个孩子考到清华、北大，总共加起来最多做10万道题，但是即使到目前为止，大模型训练了100倍，训练过千万题，能力可能比人差得多。核心在于大模型的举一反三能力弱很多。如果这个层面有所突破，那么强人工智能就会出现。

目前，大模型已经解决了联想能力，下一步是如何把推理解决好，完成前三步，这个过程需要时间。

为什么是大模型？

人工智能发展了很久，但直到大模型诞生之后，大家觉得大模型很厉害，究竟厉害在什么地方？

核心1：从整合性到任务Scaling Law的“涌现”

任务跟模型结构解绑是多任务整合的基础
单任务超越GPT4意义有限，大规模复杂任务的整合性才是大模型的真正价值所在
理想情况是多个任务具有协同与促进，下限是两个任务不冲突

核心2：从指令跟随准确率到自然语言编程

高准确率的指令跟随是自然语言变成的必要条件

为什么是大模型和教育？

《乔布斯传》中提到，乔布斯2011年跟比尔盖茨会面讨论教育和未来学校的问题时，说了一个现象：“自21世纪，人类在科技上的迅速发展，几乎改变了所有的领域，为什么唯独在学校教育上，影响小的令人吃惊？”

人类天生对两个方面不可或缺，物质方面是水和能量；另外是人类不能或缺信息。

但是教育在信息之上，我们希望教育具有获取知识和获取智慧的目的。

但21世纪绝大部分的发展过程都在解决信息化、数字化，基本上没有涉及知识和智慧。大模型通过大规模的预训练，基本上是从知识切入的，所以有希望对教育做出改变。

论“通用模型”和“垂类模型”

目前在做模型的有两拨团队：做通用模型和做垂类模型的。通用和垂类的差别是什么？

通用模型的困境：如何评估模型的性能

无论术语上如何强调通用，模型总是需要构建集合进行评估，集合一定总体的有偏采样
即使建立了一个无偏采样集合，只要根据评测指导模型优化，那你就在偏向你观测的集合，潜台词是在牺牲你没有观察到。

垂类模型的困境：细分的边界如何确定

教育是一个垂类，还是文科、理科是一个垂类，亦或者作文是一个垂类？

总结一下：

数学是大模型能力提升的一个好场景
联想能力是目前生成AI的核心优势，幻觉是优势的副作用
整合复杂任务，Prompt Engineering实现自然语言编程是大模型的核心
大模型有可能在知识获取完成供给侧升级，让个性化教育成为可能
面向行业的垂类模型长期都会很有价值

学而思自去年5月正式启动研发大模型，8月24日发布内测版的MathGPT官网，11月4日获批大模型牌照，今年2月在MathEval榜单的数学能力评测中登顶。

为什么是学而思来做？

为什么是学而思来做？有人会问，数学是好场景，你们有志去做，这条曲线可能确实比较陡峭，但为什么不是别家？

学而思来做数学大模型的原因是，目前我们公司的技术研发和教研人员超3000人，研发经费也很高。只有资源的大规模投入，才能保证将来的产出。

做大模型如何才能实现个性化教育？我们通过大模型与检索增强生成（RAG，Retrieval-augmented Generation）技术，使所有知识内容具有一致性。这个能力一边指向知识库，解决幻觉问题；另一边是用户画像库，解决个性化问题。

MathGPT的训练过程

MathGPT的训练过程包括预训练、有监督微调、强化学习三个阶段，其中最要强调的是强化学习。为什么说数学的曲线会比较陡峭？因为大部分的数学题都有答案，有答案就意味着我们能做大规模的仿真，能够仿真是做好强化学习的核心要素。

大模型学习数学的方式和一个孩子很像，孩子需要看大量的数学书自学；老师给孩子讲解标准的解体套路；之后孩子做多轮练习，老师批改反馈。对应这三个阶段，大模型先用海量的讲义、题库和教辅进行预训练；再通过大量步骤清晰的解题数据做有监督的微调；最后用奖励模型给解题结果以反馈。

MathGPT训练中的困难

刚刚说了很多好处，但MathGPT在训练中也遇到了困难。目前，大模型掌握一条定律方式只有通过大量的例子让它自己悟到。

以加法交换律a+b=b+a为例，我们告诉别人的时候，他可以听懂这个定律，但告诉模型不行，需要举1+2=2+1、3+5=5+3，甚至A+C=C+A等大规模的例子，大模型才能悟到这两个数字可以互换。目前模型没有办法接受概念（定律）的直接输入，只能通过一个个例子自己学会，这是大模型目前存在的问题。

刚刚提到九章大模型登顶MathEval榜单(https://matheval.ai/)，评估的这些能力中的集合都有参考依据，整体评估下来我们目前排第一。

如何解决幻觉？

来看一道题目，王老师需要为40名学生购买足球，每个足球的价格是48元，王老师还需要为这些足球支付一定的运费，运费是每个足球价格的八分之一，王老师一共需要支付多少钱？

第一轮：式子列对了，48*40*1/8+48*40，但计算48*40算错了，算成2880了；第二轮：我们让它在犯错的这一步重新尝试，48*5+48*40=48*45，换了种方式，做对了，因为先算40*1/8更简单。

因此，如何让大模型和人做的效果一样呢？那就是让大模型做很多遍，每做一遍都检查步骤，如果做的答案都一样，并且步骤也对，我们就认为它大概是对的，做了N多遍之后，幻觉问题得到大幅度解决。

目前，我们累计生产了600多万道题目，答案正确率可以达到96%，解析优良率可以达到95%。试题生成成本降低为原来的十分之一。只有供给侧效率提高，才能解决教育的个性化问题。

评估一个孩子难，评估一个模型同样难，学而思将K12全科的评估集合公开给业内，期待共同推动教育大模型的进步。同时，我们也发表了大模型数学论文，希望促进教育技术进步。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业