Llama 3.1 发布，128K 上下文，最大 405B，能力持平 GPT-4o

发布日期：2024-07-24 08:20:25 浏览次数： 3881

北京时间 7 月 23 日晚，Meta 正式发布了提前一天被泄露的 Llama 3.1 大语言模型。本次发布一共 3 个参数规模：8B、70B 和 450B。

450B 的大模型是用了 1.6 万张 H100 GPU，这是第一个以这种规模训练的 Llama 模型。Meta 还是用了还使用了 405B 参数模型来提高较小模型的后训练质量。

Llama 3.1 亮点如下：

instruct 模型针对多语言对话进行了优化，明确宣传了「以多语言文本和代码作为输出模式」，增加了对 8 种语言（英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语）的支持。
3 个版本的上下文窗口都从 8k 增加到 128K，足足扩大 16 倍。
在来自公开数据的约15 万亿 tokens上训练。微调数据包括公开可用的指令数据集，以及超过 2500 万个合成数据示例。

此外，Meta 更新了开源许可，允许开发者首次使用 Llama 模型（包括 405B）的输出来改进其他模型。官方声称，他们采用组合方法将图像、视频和语音功能整合到 Llama 3 中，使模型能够识别图像和视频，并通过语音支持交互。它们仍在开发中，尚未准备好发布。

Llama 3.1 也将很快在 Meta 旗下的各款产品中上线。

最强开源模型

官方博客中，Meta 评估了超过了 150 个基准数据集的性能，比较了 Llama 3.1 与其他模型在现实情况下的能力表现，405B 模型在包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 在内的一系列任务中与领先的基础模型具有竞争力。此外，较小模型与具有相似参数数量的封闭和开放模型具有竞争力。

8B 和 70B 模型在基准测试中取得了显著进步：Llama 3.1 在基准测试中表现优异。8B 模型在 MMLU 测试中从 65 分提升到 73 分（提高 8 分），70B 模型从 81 分提升到 86 分（提高 5 分）。在 MATH (数学问题解决) 测试中，8B 模型的得分从 29 分大幅提升到 52 分（提高 23 分）。

具体来说，在基准预训练模型的基准评测中，Llama 3.1 405B 在通用任务、知识推理、阅读理解上创下最新纪录。尤其在，MMLU、SQuAD 细分基准上，提升最为明显。与此同时，Llama 3.1 8B 和 70B 参数版本，相较于 Llama 3，得到了细微地改善。不过，有些指标，70B Llama 3.1 还不如前一代。

另外，指令微调模型中，看得出 Llama 3.1 405B 比预训练模型更强。在推理、代码、数学、工具使用、多语言基准上，纷纷碾压微调后的 8B 和 70B 版本。Llama 3.1 8B 和 70B 微调模型，同样在多项能力任务中，性能大幅提升。

02 开源、闭源的差距正在缩小

Llama 3.1 的发布，让开源模型与闭源模型的差距，再次缩小了。

下图为 Llama 3.1 各版本与 OpenAI GPT-4o、Llama 3 8B/70B 的比较结果。可以看到，即使是 70B 的版本，也在多项基准上超过了 GPT-4o。

图源：https://x.com/mattshumer_/status/1815444612414087294

显然，3.1 版本的 8B 和 70B 模型是由 405B 蒸馏得来的，因此相比上一代有着明显的性能提升。有网友表示，这是首次开源模型超越了 GPT4o 和 Claude Sonnet 3.5 等闭源模型，在多个 benchmark 上达到 SOTA。

Meta 还使用合成数据（由其他 AI 模型生成的数据）来微调 Llama 3.1 405B。包括 OpenAI 和 Anthropic 在内的大多数主要 AI 供应商都在探索合成数据的应用，以扩大其 AI 训练规模，但一些专家认为，由于合成数据可能加剧模型偏差，它应该是最后的手段。

Meta 声称 Llama 模型已经被下载超过 3 亿次，到目前为止已经创建了超过 2 万个基于 Llama 的模型。

03 扎克伯格：开源 AI 才是正确的方向

同一天，扎克伯格还发布了一篇针对开源 AI 的公开信，Founder Park 对此进行了编译。

在高性能计算机的起步阶段，当时的科技巨头们纷纷投入巨资，研发各自闭源的 Unix 系统。那时，人们很难想象，除了闭源开发，还有其他方式能够孕育出如此先进的软件。但随着时间推移，开源的 Linux 系统逐渐受到青睐——起初是因为它的代码可以自由修改，成本也更低；后来则是因为它在技术、安全性以及生态系统的广泛性上超越了所有闭源 Unix 系统。如今，Linux 已经成为云计算和大多数移动设备操作系统的行业标准，我们所有人都因更优质的产品而受益。

我认为，人工智能的发展轨迹将与此类似。目前，几家科技巨头正在研发领先的闭源模型。但开源解决方案正在迅速迎头赶上。去年，Llama 2 的性能仅能与前沿模型的旧版相媲美。而今年，Llama 3 不仅与最尖端的模型一较高下，还在某些领域取得了领先。展望明年，我们预期未来的 Llama 模型将成为业界最先进的。即便在到达那一阶段之前，Llama 在开放性、可定制性和成本效益上已经走在了前列。

今天，我们正迈出将开源 AI 打造成行业标准的新步伐。我们发布了 Llama 3.1 405B——首个达到前沿水平的开源 AI 模型，以及性能更优的 Llama 3.1 70B 和 8B 模型。与闭源模型相比，这些新模型在成本/性能比上有着显著优势，特别是 405B 模型的开源特性，使其成为微调和蒸馏小型模型的理想选择。

除了发布这些模型，我们还与多家公司合作，拓展更广阔的生态系统。亚马逊、Databricks 和英伟达等公司推出了一系列服务，帮助开发者微调和蒸馏他们自己的模型。Groq 等创新企业为所有新模型构建了低延迟、低成本的推理服务。这些模型将在 AWS、Azure、谷歌云、甲骨文等所有主要云平台上提供。Scale.AI、Dell、Deloitte 等公司已准备好帮助企业采用 Llama，用他们自己的数据训练定制模型。随着社区的壮大和更多公司开发新服务，我们可以共同推动 Llama 成为行业标准，让 AI 的益处惠及每一个人。

Meta 致力于开源 AI。我将阐述为什么我认为开源是您的最佳开发选择，为什么开源 Llama 对 Meta 有益，以及为什么开源 AI 对世界有益，因此是一个长期可持续的平台。

为什么开源 AI 对开发者有益

当我与全球的开发者、CEO 和政府官员交流时，我通常会听到几个共同的主题：

我们需要训练、微调和蒸馏适合自己需求的模型。每个组织都有其独特的需求，最适合的模型大小也不尽相同，这些模型需要用他们自己的特定数据进行训练或微调。对于设备上的任务和分类任务，可能需要较小的模型；而对于更复杂的任务，则需要较大的模型。现在，你可以利用最先进的 Llama 模型，用你自己的数据继续训练，然后根据需要将其蒸馏成合适大小的模型——整个过程无需向我们或任何其他人透露你的数据。
我们需要掌握自己的命运，避免被闭源供应商锁定。许多组织不想依赖于他们无法自行运行和控制的模型。他们不希望闭源模型提供商能够随意更改模型、修改使用条款，甚至完全停止服务。他们也不想被限制在只有独家模型访问权的单一云平台上。开源允许广泛的公司生态系统存在，这些公司提供兼容的工具链，使你可以轻松地在它们之间迁移。
我们需要保护自己的数据。许多组织处理敏感数据，需要确保安全，不能通过云 API 发送到闭源模型。还有一些组织根本不信任闭源模型提供商处理他们的数据。开源通过允许你在任何地方运行模型来解决这些问题。普遍认为，由于开发过程更加透明，开源软件往往更安全。
我们需要运行效率高且成本可接受的模型。开发者可以在自己的基础设施上以大约使用闭源模型如 GPT-4o 一半的成本运行 Llama 3.1 405B 的推理，无论是面向用户的还是离线推理任务。
我们希望投资于将成为长期标准的生态系统。许多人看到开源的发展速度超过了闭源模型，他们希望构建的系统能够长期获得最大的优势。

为什么开源 AI 对 Meta 有益

Meta 的商业模式是为人们创造最佳的体验和服务。为此，我们必须确保始终能够获取最佳技术，并且不把自己锁定在竞争对手的闭源生态系统中，这样他们就无法限制我们所能构建的内容。

我的一个惨痛经历是在苹果平台上构建服务时受到的限制。从他们对开发者征税的方式，到他们随意更改的规则，再到他们阻止发布的所有产品创新，很明显，如果我们能够构建我们产品的最佳版本，而竞争对手无法限制我们，Meta 和许多其他公司将能够为人们提供更好的服务。从哲学上讲，这是我如此坚信为下一代计算构建开放的 AI 和 AR/VR 生态系统的主要原因。

人们经常问我是否担心通过开源 Llama 放弃技术优势，但我认为这忽略了大局的几个原因：

首先，为了确保我们能够获取最佳技术，并且长期不锁定在闭源生态系统中，Llama 需要发展成为一个完整的工具生态系统，包括效率改进、硅优化和其他集成。如果我们是唯一使用 Llama 的公司，这个生态系统就不会发展，我们的处境也不会比 Unix 的闭源版本更好。

其次，我预计 AI 开发将继续非常具有竞争力，这意味着开源任何特定模型并不会在当时给予比下一个最佳模型更大的优势。Llama 成为行业标准的道路是通过持续的竞争力、效率和开放性，一代又一代地发展。

第三，Meta 与闭源模型提供商的一个关键区别是，我们并不通过出售对 AI 模型的访问来盈利。这意味着公开发布 Llama 并不会削弱我们的收入、可持续性或投资研究的能力，这与闭源提供商不同。（这也是一些闭源提供商一贯游说政府反对开源的原因之一。）

最后，Meta 有着长期的开源项目和成功的历史。通过发布我们的服务器、网络和数据中心设计到开放计算项目，并让供应链标准化我们的设计，我们节省了数十亿美元。通过开源像 PyTorch、React 等领先的工具，我们从生态系统的创新中受益。当我们长期坚持这种方法时，这种方法一直对我们有效。

为什么开源 AI 对世界有益

我相信开源对于积极的 AI 未来是必要的。AI 比其他任何现代技术都有更大的潜力来提高人类的生产力、创造力和生活质量——并加速经济增长，同时在医学和科学研究方面取得进展。开源将确保全世界更多的人能够获得 AI 的好处和机会，权力不会集中在少数公司手中，技术可以更均匀、更安全地部署在社会中。

关于开源 AI 模型的安全性正在进行持续的辩论，我的观点是，开源 AI 将比替代方案更安全。我认为政府也应当认识到支持开源符合他们利益，因为它将使世界更加繁荣和安全。

我理解安全性的框架是我们需要防范两类伤害：无意的和有意的。无意的伤害是当 AI 系统可能造成伤害，即使运行它的人没有意图这样做。例如，现代 AI 模型可能会无意中提供不良的健康建议。或者，在更具未来感的场景中，一些人担心模型可能会无意中自我复制或过度优化目标，损害人类。有意的伤害是当不良行为者使用 AI 模型以达到造成伤害的目的。

值得注意的是，无意的伤害涵盖了人们对 AI 的大多数担忧——从 AI 系统将对数十亿使用它们的人产生什么影响，到对人类的大多数真正灾难性的科幻场景。在这方面，开源应该更安全，因为系统更透明，可以广泛审查。从历史上看，开源软件因此更安全。同样，使用带有像 Llama Guard 这样的安全系统的 Llama 可能会比闭源模型更安全、更安全。因此，关于开源 AI 安全性的大多数对话都集中在有意的伤害上。

我们的安全流程包括严格的测试和红队演练，以评估我们的模型是否有能力造成重大伤害，目标是在发布前降低风险。由于模型是开放的，任何人都可以自己测试。我们必须记住，这些模型是由已经在网络上的信息训练的，所以当考虑伤害时，应该考虑的起点是模型是否能够比从 Google 或其他搜索结果中快速检索到的信息造成更多的伤害。

当考虑有意的伤害时，区分个人或小规模行为者可能能够做什么以及像拥有大量资源的国家这样的大规模行为者可能能够做什么是有帮助的。

在未来的某个时候，个人恶意行为者可能利用 AI 模型的智能，基于互联网上的信息制造全新的威胁。此时，力量平衡对 AI 安全至关重要。我认为，生活在 AI 广泛部署的世界中更为安全，因为大规模的行为者能够制约小规模的恶意行为者。这正是我们如何在社交网络上管理安全——我们更强大的 AI 系统能够识别并阻止那些使用小规模 AI 系统的不太成熟的威胁者。更广泛地说，大规模机构在规模上部署 AI 将促进整个社会的安全和稳定。只要每个人都能访问相同代的模型——这是开源所促进的——那么拥有更多计算资源的政府和机构就能够制约计算较少的恶意行为者。

接下来的问题是，美国和民主国家应如何处理其他拥有丰富资源的国家所带来的威胁。美国的优势在于分散和开放的创新。一些人认为我们必须封闭我们的模型，以防止中国获得它们，但我认为这不仅无效，还会让美国及其盟友处于不利地位。最有可能的是，一个只有闭源模型的世界结果是少数大公司加上我们的地缘政治对手可以访问领先的模型，而初创公司、大学和小企业错失了机会。此外，将美国创新限制在闭源开发上增加了我们根本不领先的机会。相反，我认为我们的最佳策略是构建一个强大的开放生态系统，并让我们的领先公司与我们的政府和盟友密切合作，以确保他们能够最好地利用最新的进步，并在长期内实现可持续的先发优势。

当您考虑未来的机遇时，请记住，当今大多数领先的科技公司和科学研究都是基于开源软件构建的。下一代公司和研究将使用开源 AI，如果我们共同投资于它。这包括刚刚起步的初创公司以及可能没有资源从头开始开发自己的最先进 AI 的大学和国家的人们。

总之，开源 AI 代表了世界利用这项技术为每个人创造最大经济机会和安全的最佳机会。