Meta开源405B模型为什么重要？

发布日期：2024-07-24 18:24:25 浏览次数： 3186

如剧透的结果一模一样，Meta发布了LlaMa-3.1，其中最大的期待当然来自于达到GPT-4o水平的405B模型。

当然，同时还有能力大幅提升的8B和70B模型。相信关于模型的使用和能力评价，会在接下来一段时间不断有信息更新。在模型开放下载的不到12小时内，各模型的下载量分别超过了五千。

关于Meta披露的模型的评分，在昨天的文章里也做了简单讨论：Llama-3.1？405B参数？开源却是最好的模型？

因为还没来得及自己评测，所以就不方便主观评价能力了。按照计划也准备在下周某个时刻部署完405B模型推理后，再发文讨论。但是，今天看完扎克伯格的公开信（“Open Source AI Is The Path Forward”，开源AI是未来发展之路）后，觉得还是有必要认真讨论一个问题：为什么Meta今天发布的LlaMA-3.1如此重要？

首先，扎克伯格在自己的公开信中回答了这个问题，他以linux开源生态为例，认为：1、在大模型领域，开源模型会成为行业标准和最重要的基础；2、通过开源，开发者可以满足特定需求、保护数据、降低成本，并避免依赖封闭供应商；3、对全世界而言，开源模型也将有助于激发创新，推动AI技术的广泛应用，并促进透明和公平的技术发展。

Open Source AI Is the Path Forward
https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/

无论大家评价如何，Meta越来越成为大模型界最重要的力量之一，创始人扎克伯格的高度重视甚至走到前台“督战”是重要的原因之一，扎克伯格的这篇公开信也写的很好，格局很高，是非常值得仔细阅读的。

尽管这背后自然最主要的还是商业上的“算计”，但是，LLaMA-3.1-405B模型的开源，依然有非常重要的意义：

1、这是第一个“公认”达到GPT-4o/Claude3.5水平的开源模型（开放权重），一年多的时间，最好的开源模型追平与最好的闭源模型之间的差距，如果在未来某一天回看，大概率可以把今天定位“AI新时代的真正开始”（闭源模型的使用其实是不平等的，开放权重模型至少在访问上是没有任何门槛的）；

2、LLaMA-3.1的训练使用了15T的tokens，基本上意味着网络上所有的公开文本信息都被“压缩”进了模型（LLM是个压缩器，写在OpenAI直播展示活动之前），如果说GPT-4(o)是一个具备一定思考能力的“百科全书”，那么，LLaMA-3.1-405B的开放，意味着人人可以拥有具备一定思考能力的“私人百科全书”，这对各行业和社会的影响速度将远远超过单一闭源模型（加强版的“星星之火可以燎原”）；

3、405B模型最大的意义不是直接推理，而是用于蒸馏出足够好用的“小模型”。客观上讲，405B模型对硬件的要求还是比较高的，从推理看，即使使用INT4的量化版本，大概也需要到接近200GB的显存。虽然我一直认为Apple Silicon芯片及系统是非常好的推理硬件，M2 Ultra芯片的M2 Studio（192GB内存）应该单机也能推理INT4版本的模型，但是，推理速度一定是不乐观的（估计能有每秒5个tokens就算是不错的表现了）。对于很多人而言，直接使用405B模型进行推理并不现实，但是我们可以利用405B模型和垂直领域的高质量数据，通过知识蒸馏，得到足够好用的“小模型”，这或许才是更多B端落地打开的正确方式；

4、人人可以拥有的模型，必然推动“推理优化”的快速进步，不断降低计算成本。405B模型给到了所有开发者和企业一个全新的选择，私有化部署GPT-4级别的模型，虽然如前一段所述，暂时推理速度上不去，但是相信“高手在民间”，未来很短时间里一定会冒出大量的“推理优化”的方法，大幅提升推理速度，从而快速降低计算成本，加速本轮AI渗透（虽然，对于绝大多数人而言，这并不是一件愉快的事情）；

5、如果OpenAI之前确实有保留，那么现在必须拿出点真材实料了，这是好事；

6、对于大多数模型公司而言，这也是好事：LLaMA-3.1的路可复制性还是比较强的，虽然从商业模式上讲，通过模型本身挣钱已经基本走不通了，但是，别的道路一定有很多的；

7、我喜欢参考摄影的发展：技术发展到现如今，虽然专业相机能力也越来越强，但是使用量最大的相机早就是智能手机了。或许，同理，模型的快速发展，最终催生的是新形态的“硬件”，虽然我们只看到些雏形，还未见到称得上成熟的产品出现（Friend：又看到一个很有用但可能争议巨大额AI硬件）；

8、也许，基于405B，很多应用和业务流程，都值得重新设计；