微信扫码
添加专属顾问
我要投稿
我们都知道,大模型的训练需要大量的训练数据。而合成数据 - synthetic data作为真实数据的补充,已经成为训练数据中的重要组成部分(甚至未来合成数据的占比可能会达到~99%)。
今天看到腾讯AI实验室的一篇paper,为创造合成数据提供了新的思路:
Scaling Synthetic Data Creation with 1,000,000,000 Personas
下载地址https://arxiv.org/pdf/2401.02524
顾名思义,作者通过十亿个Persona人物角色(约占世界人口13%)来为合成数据scale up:we introduce Persona Hub – a collection of 1 billion diverse personas automatically curated from web data。
通过这个Persona Hub,组建了一个由形形色色的不同角色组成的世界,这些人物角色作为世界知识的载体,可以大规模地生成各种场景下的合成数据。
合成数据的背景
合成数据对于训练和优化 LLMs 至关重要,现在人们会通过prompt来让LLM产出合成数据。但现有方法在批量生成多样化、高质量的数据方面存在局限。
为此,文章作者提出了基于人物角色Persona的方法,构建了10亿个Persona,创建了Persona Hub,即角色仓库,里面包含“搬家公司司机”、“科学研究员”、“音乐家”等多样化角色。这样一来,不同Persona利用LLM中的多种视角来创建丰富的合成数据。
Persona Hub 的创新与构建
Persona Hub 是一个包含十亿个虚拟人物角色的集合,这些人物角色拥有不同的性格、背景和经历。构建 Persona Hub 的两种主要方法为:
Persona Hub 创建合成数据
Persona Hub构建完毕,作者将Persona融入到不同的数据合成的prompt的适当位置,就可以批量生成多样化的合成数据。
作者展示了其在多个场景下创造合成数据的能力:
一个生成数学题目的Demo
作者展示了如何使用一个Persona来引导LLM创建与该Persona相关的数学问题。例如,当给定一个对计算语言学感兴趣的语言学家人物角色时,LLM会创建一个与计算语言学相关的数学问题。此外,演示还强调了即使在提示中添加了Persona,仍然可以轻松指定所需数学问题的重点(例如,几何问题)或难度(例如,奥林匹克级别的问题)。
Persona Hub 的潜在影响与未来展望
Persona Hub 的出现预示着合成数据领域的一次范式转变。它不仅能提升 LLMs 的训练效果,还能在聊天机器人、虚拟助手、模拟现实世界个体等多个领域发挥作用。此外,Persona Hub 还可为 LLMs 提供全面的记忆访问,使对话更加连贯和合理。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-05
OpenCSG 正式发布 OpenClaw × AgenticHub 企业级 OPC 平台
2026-02-05
苹果 Xcode 终于引入 AI,「Agentic Coding」攻入「果系」开发者大本营
2026-02-05
Claude Code vs. OpenAI Codex为什么更慢的模型,反而更快把事情做完
2026-02-04
Skills使用体验
2026-02-04
AgentScope 正式发布 Skills 支持 - 实现渐进式披露
2026-02-04
从“回答者”进化为“研究员”:全面解析 Deep Research
2026-02-04
刚刚,Xcode 史诗级更新:原生集成 Claude Agent SDK,苹果开发直接起飞!
2026-02-04
国产 Cowork 它来了!MCP、Skills和Expert Agents都支持,全部免费体验!
2026-01-24
2026-01-10
2025-11-19
2025-11-13
2026-01-26
2026-01-01
2025-12-09
2025-11-12
2026-01-09
2025-12-21
2026-02-04
2026-02-03
2026-02-03
2026-02-02
2026-02-02
2026-02-02
2026-01-31
2026-01-30