合成数据成为7B模型具备强大数学能力的关键

发布日期：2024-09-04 18:45:47 浏览次数： 2658

作者：AI工程化

微信搜一搜，关注“AI工程化”

近期一项突破性研究《Common 7B Language Models Already Possess Strong Math Capabilities》揭示，即使是像LLaMA-2 7B这样的小型语言模型也蕴含着惊人的数学能力。这一发现挑战了传统观念，为AI在数学领域的应用开辟了新的可能性。然而，如何稳定且高效地激发这种潜能成为了研究的关键。在这个过程中，合成数据的应用扮演了至关重要的角色，这和一些人认为的合成数据可能会导致AI模型因低质量信息而“自我中毒”,最终可能导致模型“崩溃”的观点恰恰相反。

https://arxiv.org/pdf/2403.04706

研究初期，团队发现增加监督式微调（SFT）数据可以显著提升模型性能。然而，高质量的真实数学问题数据稀缺，这成为了制约进一步提升的瓶颈。为突破这一限制，研究团队转向了一个创新方向：利用GPT-4 Turbo API生成高质量的合成数学问题。这种方法不仅解决了数据稀缺的问题，更为大规模训练提供了可能性。

研究者开发了一种简单而高效的三步法来生成高质量合成数据：

1.生成新问题：利用GPT-4 Turbo API，以参考问题为基础创造全新的数学题目。这确保了问题的多样性和新颖性。

2.验证问题：通过尝试解答来验证和改进生成的问题。这一步骤保证了问题的质量和合理性。

3.生成思维链答案：为每个新生成的问题创建详细的思维链（Chain of Thought, CoT）解答过程。这不仅提供了答案，还模拟了人类解题的思考过程。

这种方法不仅能生成大量高质量的数学问题，还能提供与之匹配的详细解答过程，为模型训练提供了理想的数据集。

研究结果显示，合成数据在训练效果上几乎与真实数据不相上下：

数据规模	GSM8K-真实	GSM8K-合成	MATH-真实	MATH-合成
0.94K	26.7	25.9	4.2	3.9
1.88K	32.8	31.9	5.6	4.9
3.75K	43.3	42.2	6.6	6.0
7.50K	50.2	49.5	8.4	7.9

这一发现证明了合成数据的有效性，为大规模训练铺平了道路。

借助合成数据，研究团队将训练规模提升到前所未有的水平：

GSM8K: 960K样本
MATH: 480K样本

训练结果令人振奋：

LLaMA-2 7B在GSM8K上达到82.6%准确率
在MATH上达到40.6%准确率

这些成绩不仅创造了新记录，更首次使用标准7B规模模型突破了GSM8K 80%和MATH 40%的准确率门槛。

研究发现，合成数据的主要作用在于提高模型生成正确答案的稳定性。这解决了小型模型在数学问题上表现不稳定的关键问题。同时，通过在合成数据中增加长链推理步骤的比例，研究者成功提高了模型在复杂问题上的表现。这一发现为进一步优化模型在高难度数学问题上的能力指明了方向。

未来展望：合成数据的无限可能

合成数据在激发小型语言模型数学潜能方面的成功，为AI研究开辟了新的方向：

扩展应用领域：将合成数据方法应用到其他复杂推理任务，如科学问题解决、逻辑分析等。
优化数据生成策略：探索更先进的合成数据生成方法，进一步提高数据质量和多样性。
跨领域知识迁移：研究如何利用合成数据促进模型在不同知识领域间的能力迁移。
个性化学习助手：开发基于合成数据的个性化AI学习助手，为不同层次的学习者提供定制化的数学辅导

合成数据在激发小型语言模型数学潜能方面的成功，不仅是技术上的突破，更是思维方式的革新。它告诉我们，有时候解决问题的关键不在于拥有更大的模型或更多的真实数据，而在于如何创造性地利用现有资源。随着这一领域的不断发展，我们有理由期待看到更多这方面的尝试，克服高质量数据匮乏的难题，推动AI在更多领域发挥更大的作用。