DeepSeek-Prover-V2-671B模型和大白话论文解读（AI版）

发布日期：2025-05-01 08:19:08 浏览次数： 2815

作者：去玩AI

微信搜一搜，关注“去玩AI”

DeepSeek今日于AI开源社区Hugging Face上发布了一个名为DeepSeek-Prover-V2-671B的新模型。这马上放假了，DeepSeek是不是又想在假期里搞事情啊。我的AI群里，大家又都热闹起来了。

这一次的模型，再一次证明了强化学习可以增强模型能力，

从模型迭代上看，DeepSeek-Prover去年就发了，从V1到V1.5，再到V2，DeepSeek一直在这个模型上有投入。这个模型不是通用模型，它是AI for 科学的一个模型，用于数据证明。

据悉，DeepSeek-Prover-V2-671B 使用了更高效的 safetensors文件格式，并支持多种计算精度，方便模型更快、更省资源地训练和部署，参数达6710亿，或为去年发布的Prover-V1.5数学模型升级版本。在模型架构上，该模型使用了DeepSeek-V3架构，采用MoE（混合专家）模式，具有61层Transformer层，7168维隐藏层。同时支持超长上下文，最大位置嵌入达163840，使其能处理复杂的数学证明，并且采用了FP8量化，可通过量化技术减小模型大小，提高推理效率。

那么这个DeepSeek-Prover模型究竟是干什么，为什么要发这样的模型，DeepSeek之前发过一篇论文，可以研究下。

---- 如果你说看不懂啊，怎么办，我们让AI来帮忙。

下面的解读来自AI。

音频来自NotebookLM，文字部分来自于腾讯元宝。

听完这个录音，用大白话给你讲清楚DeepSeek-Prover

研究背景

背景介绍:
这篇文章的研究背景是现代数学中证明的复杂性不断增加，导致同行评审中的错误难以被发现。为了解决这些问题，形式化数学语言如Lean、Isabelle和Coq被开发出来，使得计算机可以验证证明。然而，编写形式化证明需要大量专业知识，自动化定理证明的重要性因此日益增加。
研究内容:
该问题的研究内容包括如何通过大规模合成数据来增强LLMs在定理证明中的能力。具体来说，文章提出了一种从非正式数学问题生成大量Lean 4证明数据的方法，并通过微调DeepSeekMath 7B模型来提高其定理证明性能。
文献综述:
该问题的相关工作包括Polu和Sutskever（2020）、Jiang等人（2021）、Han等人（2021）、Polu等人（2022）、Lample等人（2022）、Jiang等人（2022a）、Yang等人（2024）等，这些工作主要集中在搜索算法和大型语言模型的结合上，但缺乏足够的训练数据。Autoformalization方法如Wu等人（2022）虽然生成了一些合成数据，但规模仍然不足。

研究方法

这篇论文提出了通过大规模合成数据来增强LLMs在定理证明中的能力的方法。具体来说，研究方法包括以下几个方面：

自动形式化: 从高中级数学竞赛问题中生成形式化数学陈述。首先使用DeepSeek-Prover模型将自然语言问题翻译成Lean 4的形式化声明。初始模型难以完成这一任务，因此使用MMA数据集进行微调，MMA数据集包含从Lean 4的mathlib3反向翻译的自然语言问题描述。
质量过滤: 通过模型评分和假设拒绝方法筛选高质量的形式化陈述。模型评分使用链式思维方法将陈述分类为“优秀”、“良好”、“高于平均”、“一般”或“较差”，并排除“一般”和“较差”的陈述。假设拒绝方法通过尝试证明陈述的结论为假来检测无效假设。
陈述证明: 使用模型搜索陈述的证明，并通过并行证明否定陈述来提高效率。每个证明搜索流最多尝试k次证明，一旦找到有效证明即终止搜索。
迭代增强: 通过不断微调模型并生成新数据进行迭代增强。每次迭代后，模型的性能都会有所提升，直到改进变得微乎其微。

上面这个图形象的展示了训练方法。

Figure 1 提供了论文方法的整体概览，展示了从非正式数学问题到正式证明的整个流程。以下是对图中各个步骤的详细解释：

Autoformalization（自动形式化）：

输入
：大量的非正式数学问题（例如，来自高中和大学数学竞赛的问题）。
过程
：使用一个基于深度学习的语言模型（如DeepSeekMath-Base 7B模型）将这些非正式问题转化为形式化的数学语句（Lean 4语言）。
输出
：初步的形式化数学语句。
Quality Filtering（质量过滤）：

模型评分
：使用一个评分模型对每个形式化语句进行评估，判断其质量（如“优秀”、“良好”、“一般”、“较差”、“差”）。
假设拒绝
：通过尝试证明一个带有“False”结论的语句来检查原语句的假设是否一致。如果假设不一致，则排除该语句。

输入
：初步的形式化数学语句。
过程
：
输出
：高质量的形式化数学语句。

Statement Proving（语句证明）：

证明搜索
：使用DeepSeek-Prover模型尝试为每个形式化语句找到证明。为了提高效率，同时证明原语句及其否定（即并行证明T ⊢ P和T ⊢ ¬P）。
验证
：使用Lean 4验证器验证找到的证明是否正确。

输入
：高质量的形式化数学语句。
过程
：
输出
：经过验证的形式化数学语句及其证明。

Iterative Enhancement（迭代增强）：

微调模型
：使用新生成的证明数据对DeepSeek-Prover模型进行微调。
重复过程
：使用微调后的模型进行下一轮的自动形式化、质量过滤和语句证明。

输入
：经过验证的形式化数学语句及其证明。
过程
：
输出
：不断提升性能的DeepSeek-Prover模型和更大规模的高质量形式化数学数据集。

通过这些步骤，论文的方法能够有效地生成大规模的高质量形式化数学数据，并显著提升自动定理证明的性能。

以下是10个关于这篇论文的自问自答，用通俗易懂的方式阐述其价值：

1. 这篇论文主要解决了什么问题？

在数学定理证明领域，大型语言模型（LLMs）虽然有潜力，但缺乏训练数据，导致在形式化定理证明方面进展受限。这篇论文提出一种方法，通过从高中和大学本科数学竞赛问题生成大量Lean 4证明数据来解决这个数据缺乏的问题。

2. 它是怎么解决数据缺乏问题的？

论文先从网上抓取高中和大学本科数学竞赛的自然语言问题，然后用一个大语言模型把这些自然语言问题转化为Lean 4的形式化语句。接着过滤掉质量低和无效的语句，再用模型生成证明，最后用这些数据来微调模型，不断迭代提升模型性能。

3. 这种方法效果如何？

在对Lean 4 miniF2F测试集的实验中，微调后的DeepSeek-Prover模型在使用64个样本时，完整证明生成准确率达到46.3%，累积达到52%，超过了基线模型GPT - 4的23.0%和一个树搜索强化学习方法的41.0%。在Lean 4 Formalized International Mathematical Olympiad (FIMO)基准测试中，该模型成功证明了148个问题中的5个，而GPT - 4一个都没证明出来。

4. 论文提出的方法有什么独特之处？

多步骤质量保证
：通过质量评分模型和假设拒绝策略过滤低质量语句，还用迭代框架不断改进证明质量。
规模保障策略
：通过并行证明原语句及其否定来加速证明过程，避免在不可证语句上浪费时间。

5. 这篇论文对数学领域有什么贡献？

它创建并开源了一个高质量的正式数学证明数据集，为数学和人工智能社区提供了更多资源，有助于进一步研究和发展自动定理证明，可能会让数学证明验证更可靠，也为学生和研究人员提供教育资源。

6. 对人工智能领域有什么意义？

展示了大型语言模型在自动定理证明方面的潜力，通过利用大规模合成数据提升了模型性能，为其他相关研究提供了新思路和方法，推动了人工智能在数学推理领域的发展。

7. 论文中的实验是如何设置的？

以DeepSeekMath - Base 7B模型为基础构建DeepSeek - Prover，使用1200亿数学相关标记预训练。在微调时，全局批量大小设为512，学习率设为1×10⁻⁴ ，包含6000个热身步骤。评估时与GPT - 3.5、GPT - 4、GPT - f等基线模型对比，使用pass@k指标衡量性能。

8. 实验结果除了证明准确率，还有其他发现吗？

通过消融实验发现：

大规模自动形式化有效，用自动生成数据训练的模型比仅用mathlib数据训练的模型性能更好。
模型在过滤低质量语句方面有效，用高质量证明数据训练的模型比用低质量数据训练的性能提升4.5%。
迭代增强策略有效，随着迭代次数增加，模型性能提升，定理证明能力增强。
合成定理证明数据规模与模型效果相关，数据量越大，模型在miniF2F基准测试上的性能越好。

9. 论文中的案例研究有什么作用？

展示了方法在实际应用中的效果，包括成功证明定理以及识别假设不一致的情况。比如在自动形式化定理时，能准确将自然语言描述的数学问题转化为Lean 4的形式化语句并证明；还能发现原自动形式化中的错误假设，并给出反例和修正版本。

10. 论文未来有什么展望？

目前主要关注中学和大学本科的代数和数论问题，未来计划扩大数学问题的多样性，提高方法在自动定理证明中的通用性，进一步推动自动定理证明领域的发展。

这篇文章的独特价值（打比方版）

1. 像“教AI做数学题”一样训练模型

想象一下，你要教一个AI做高中数学竞赛题，但你发现它连题目都看不懂，更别说解题了。以前的方法就像直接给AI一堆“标准答案”，让它死记硬背，但遇到新题就懵了。

这篇论文的做法是：先让AI学会把数学题翻译成“机器能看懂的语言”（Lean 4），再自己试着解题，最后用正确答案纠正它。就像你先教AI理解题目，再让它自己尝试解题，做错了就告诉它哪里错了，反复训练，直到它能独立解题。

2. 像“刷题库”一样提升AI的数学能力

以前的AI训练数据就像“几本薄薄的练习册”，题目太少，AI学得不够扎实。这篇论文生成了800万道数学题和答案，相当于给AI准备了一个“超级题库”，让它疯狂刷题，解题能力自然就提升了。

3. 像“错题本”一样优化训练

以前训练AI时，如果它做错了，可能就直接丢弃这个错误案例。但这篇文章的方法是：把错题整理出来，分析为什么错，再让AI重新学。比如，如果AI把“所有复数都满足某个错误条件”当成真命题，它会自己发现矛盾，并把这个错误案例剔除，避免下次再犯。

4. 像“双保险”一样提高解题效率

以前AI证明数学题时，只能一个一个试，效率很低。这篇论文的方法是同时证明原命题和它的反命题，就像“两条腿走路”：

如果原命题能证明，那它就是对的。
如果反命题能证明，那原命题就是错的。

这样就能快速排除错误命题，节省计算资源，提高效率。

作者为什么要做这篇论文？（打比方版）

1. 解决AI数学解题的“卡脖子”问题

现在的AI在数学推理上就像“小学生”，能做简单题，但遇到复杂的数学竞赛题就抓瞎。作者发现，数据不够是主要瓶颈——没有足够多的高质量数学题让AI学习。

于是，他们决定自己造数据，用自动方式生成800万道数学题，让AI有足够的“练习题”可以学，就像给AI请了一个“数学私教”，天天逼它刷题。

2. 让AI像数学家一样思考

以前的AI解题就像“暴力破解”，试遍所有可能，但效率极低。作者希望AI能像数学家一样，先理解题目，再有逻辑地推导。

他们的方法让AI先学会把数学题翻译成“机器语言”，再自己尝试证明，就像教一个人先学会读题，再自己思考解题步骤，而不是直接抄答案。

3. 推动AI自动定理证明的发展

自动定理证明（ATP）就像数学界的“自动驾驶”，如果能让AI自己证明数学定理，未来它就能帮数学家验证猜想、发现新定理。

但以前ATP的数据太少，AI学不会。这篇论文通过大规模合成数据，让AI的“数学驾驶技术”大幅提升，未来可能让AI在数学研究上发挥更大作用。

4. 让更多人能用上AI数学工具

作者开源了数据和模型，就像把“数学学习秘籍”公开，让全世界的研究者都能用。这样，更多人可以基于这个方法改进AI数学能力，甚至应用到教育、科研等领域。

总结（一句话版）

这篇论文的价值在于：用AI自动造了800万道数学题，让AI疯狂刷题，解题能力大幅提升，并开源数据和方法，推动数学+AI的跨界发展。作者做这件事，是因为数据不够是AI数学推理的瓶颈，而他们找到了高效造数据的方法，让AI离“数学专家”更近一步。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业