关于Llama3.1模型简要总结及启示

发布日期：2024-07-25 19:08:16 浏览次数： 3517

今天凌晨Meta公司发布了史上最强的开源大模型，Llama3.1 405B模型，今天总结一下关于Llama3.1的一些关键点，以及对我们的启示。

首先总结一下关于 LLAMA3.1的特点

第一个最重要的特点当然是目前为止最大最有效的开源模型，拥有4050亿参数，模型是可以直接对标GPT4（目前最好的闭源大模型）。从参数的级别来讲，我们知道 GPT 3.5 拥有 1700 多亿的参数，GPT 4 是一个万亿级别的参数，这样一个模型提出到底给我们什么样的一些启示呢？

很直观的来讲，它重新会开启开源和闭源模型之间的竞争。

我们知道在405B模型出来之前，我们基本上认为是开源要落后于闭源的，而且基于开源的模型进行模型微调得出来的新模型，效果很多时候还是不如GPT4。有了我们最新的Llama模型之后，这样的一个格局是否会彻底的被改变？因为目前的LLAMA3.1 模型实际上它的性能是可以跟 GPT 4 可以媲美。所以在它的基础上我们进行了模型的微调或者一些调整，就有可能在一些领域上它的性能会超过 GPT 4，这其实对开发者来讲是一个非常好的消息。

第二个启示就是中文大模型，其实我们知道国内很多的大模型的构建极大地参考了 LLAMA3.1模型，比如说 LLAMA3.1 的架构或者是基于 LLAMA3.1接着去训练，或者基于 LLAMA3.1 做了一些模型的蒸馏，从这个观点来看， LLAMA3.1 1405 B 模型的诞生有可能会极大的加速我们中文大模型开发的进度，虽然目前发布的模型主要以英文为主，对中文是不太友好，但是可以通过一些像持续训练的方法。可以把这样的一个有效的模型造为有效的中文大模型。

第二个特点， Meta 同步发布了新的8 B，还有 70B 的模型，以及所有这些模型，它支持 128 K 的上下文。这里值得关注的一点是，新发布的 8B 和 70B模型要比同类参数的模型要高出一个等级，而且 128 K 的上下文大小其实满足了我们绝大多数的需求。

第三个特点是强调了数据的重要性，除了模型的发布，它也公开了非常完整的94页的技术报告，然后在这个报告里涵盖了非常详细的跟数据相关的细节。比如说数据的准备、数据处理、数据收集，以及如何用 AI 的方法来大量的去构造一些数据，而且这里提到的很多的数据上的一些细节方案，可以用在我们对模型的微调的过程里面，所以这个技术报告非常有价值。

总结一下 LLAMA3.1405B 模型成功的主要原因

也就是什么样的一些背后的技术或者手段促使它的性能能够去跟 GPT 4 媲美？

第一个也是最重要的就是模型的大小。这个跟scaling law是相关的，也就是随着我们把模型变得越来越大，它的整个的性能也会变得越来越好。

第二个数据大小，就是用于训练模型的数据量，对于 405 B 的模型来讲，我们总共使用了 15T 的token。然后相反，在 LLAMA2里面其实使用到的仅仅是 1.8T 的token。

除了模型大小和数据大小。

第三个就是数据上的一些工作，如果我们仔细看他发布的技术报告，我们会发现里面大量的篇幅其实在讲数据，包括怎么去收集数据，怎么去处理数据，以及怎么去构造数据，所以这里就涉及到很多跟数据清洗，还有就是数据的构造，包括配比等工作，这些对模型最后的效果会产生非常重要的影响。

第四点从模型的结构来讲，实际上新的模型它跟旧的模型相比没有本质的区别，所以在结构上是看不出太多的创新点。

第五点就是定向能力的提升，为了让训练出来的大模型它具备像数学能力，还有推理能力、写代码能力以及能够灵活地调用各类工具的能力。在技术报告里面我们可以看出他们做了大量的工作，那这里有些能力的提升，他们专注在模型的后训练上，然后另一批能力的提升，它既考虑模型的预训练，也考虑模型的后训练

但是不管怎么样，这些能力的提升的重点还是在于数据本身上，比如说我们收集什么样的数据，然后对这些数据我们怎么去处理，然后怎么去筛选出高质量的数据来训练相应的能力。所以从这几点可以看出，几乎所有的重点工作在于数据上，就是把模型变大，然后我们在数据上做更多的工作，从而得到一些更高质量的数据。以上是针对于LLAMA3.1 系列大模型的简单的总结，所以说了这么多，其实核心还是数据。