通义星尘个性化大模型相关技术与应用

发布日期：2024-06-23 18:20:45 浏览次数： 3839

作者：DataFunSummit

微信搜一搜，关注“DataFunSummit”

导读本文介绍了通义星尘个性化大模型相关技术与应用。（本文整理自 2023 年 11 月 24 日 DataFunCon2023（深圳站）（线下）严明老师关于《通义星尘个性化大模型相关技术与应用》的演讲，文章内容均切合于当时时间点）

主要内容包括以下几个部分：

1. 大模型发展背景介绍

2. 通义星尘个性化大模型

分享嘉宾｜严明博士阿里巴巴高级算法专家

编辑整理｜王甲君

内容校对｜李瑶

出品社区｜DataFun

大模型发展背景介绍

大模型的核心技术发展可概括为从预训练模型到指令遵从(Instruction-Following)、多面对齐（Alignment）再到模型生态（Plugin）的演进。

最初的起源可追溯到 2018、2019 年的 Bert、GPT-1 预训练模型，通过海量无监督数据预训练，实现了 NLP 任务的通用效果。第二阶段，GPT 系列模型致力于减少训练数据量，通过模型规模的扩大达到非常好的效果，如模型参数逐渐从 GPT-2 的几十亿发展到 GPT-3 的 1750 亿，并展现出上下文（In-Context-Learning）学习的能力。ChatGPT 则注重模型对指令的深层理解和遵从，以及监督微调（SFT）、人工反馈强化学习（RLHF）、价值对齐（Alignment）等工作。再后来，大模型发展强调无害性、安全性和责任性，追求与人类认知的多方面对齐。GPT-3 引入了 In-Context-Learning 和 CoT（思维链）机制，ChatGPT 则强调 Instruction-Following 和 Alignment，GPT-4 增强了多模态能力。到最近，GPT 发布了 GPT Store、Agent 等平台与生态，展示了以大模型为核心、构建并连接整个技术生态的趋势。这些平台旨在扩展大模型的应用范围，包括调用外部小模型和 API 等一些复杂指令的规划和遵循。OpenAI 也基本上是按这样的趋势发展。

阿里巴巴在很早前就在大模型预训练领域进行了储备和布局。自 2018 年，开始研究如何设计更有效的预训练任务，以强化模型的语言理解能力。2019 年，成功发布了万亿参数多模态大模型 M6。2020 年以来，构建了完整的 AliceMind 深度语言模型体系，涵盖了纯文本、生成式、多元以及多模态等多种类型。至 2021 年，进一步推出了更大规模的模型（在此之前，处于参数较少的小模型时代），包括中文 PLUG（百亿参数）和 M6 的 10 万亿参数版本。到 2022 年，持续优化大模型在各类任务中的通用性能，包括通用多模态模型 OFA、mPLUG 多模态理解生成模型和通义大模型体系。2023 年，将过往的储备和能力进行了更高效的整合，主要布局了通义千问（基础模型）、通义听悟（语音模型）和通义万相（图像生成模型），并陆续推出了更多垂直领域的模型应用。

在去年的云栖大会上，我们发布了 8 个垂类的行业大模型。通义听悟是之前已发布的语音模型；通义星尘是本次重点介绍的个性化模型，旨在为用户提供个性化的角色定制，如 NPC 等陪伴、甚至涵盖情商方面的智能交互；通义灵码专注于编程，能协助开发者高效编写代码；通义晓蜜针对客服问答场景，提供智能客服解决方案；通义点金助力金融行业的智能化发展；通义智文专注于文档处理，能优化 PDF 或论文的阅读体验。

这些垂类模型基本上以通义千问和通义万相模型为基础底座进行构建，通过在基础底座上进一步定制和优化，以更好地满足各行业对智能化技术的需求，推动垂类应用的发展。

接下来将重点介绍通义星尘个性化大模型。

通义星尘个性化大模型

通义星尘产品的基本理念为，在保持通用大模型基础能力的情况下，延伸出个性化大模型。我们观察到当前 ChatGPT 等大模型在知识型回答上表现出色，但可能缺乏一定的个性化特征。无论真实的人类还是虚拟的 IP 角色，都应拥有自身独特的个性、说话方式、履历和经历以及记忆；更进一步，我们希望这些角色能与用户建立深厚的连接。

基于前述理念，通义星尘旨在基于个性化大模型打造角色对话平台产品，即在简单的角色设定下，可以提供拟人化、场景化、多模态和共情的对话能力以及复杂任务执行能力，从而实现个性、丰富、快速、深度的角色定义。

上图中展示了通义星尘大概的产品形态，已向全社会开放产品网页的接口。其功能包括开放自定义角色配置、提供热门角色体验、提供经典场景样板间、提供角色 API 接口等。大家可以在平台上定义角色，自行尝试。

通用大模型可以形象化地理解为知识的海洋，擅长在知识领域内运用其强大的智商和推理能力。而我们期待的个性化大模型则不止于此，他应像是一个富有情商的知己，能够与你共情，与你畅聊，且独具个性，有思考、有记忆、更有独特的情感抚慰方式。我们希望的个性化大模型更接近人类，而不是仅仅基于事实和逻辑进行机械的回应。

无论在阿里内部还是外部，都有很多个性化的应用场景，我们对这些场景进行了探索。包括情感陪伴，打造 24 小时在线应答的虚拟好友，与用户进行深度聊天和互动；萌宠设置，允许用户自定义喜欢的宠物形象，丰富养成系游戏的互动玩法；智能NPC，用于游戏中的角色打造，赋予其特定能力和任务；专业服务，打造具有特征能力的专家，实现如历史讲解和心理咨询等专业咨询和服务；角色/IP 复制，复制特定的人物或 IP，以满足用户的个性化、商业化需求。

个性化大模型的关键技术主要涵盖四个方面：

一是实现从通用到个性化的转变，关键在于如何将基础大模型训练成具备拟人化、情感化特征，并能呈现出千人千面的个性化大模型。
二是探索大小模型协同的 AI 智能体，由于大模型难以独立完成所有任务，需研究大模型与小模型如何高效协同，形成 agent 范式，从而解决更为复杂的问题。例如，当大模型不具备图片生成能力时，如何通过协同机制自动调用或触发相应的小模型。
三是发展多模态大模型，希望能够提供图文对话等交互方式，不断探索实现多模态大模型的有效途径。
四是从安全合规到负责任的 AI。随着大模型能力的迅速增强，如何确保其受到正确的价值观约束，成为安全且有社会责任感的 AI，是必须面对的重要课题。

个性化大模型的基本处理方法是基于通义千问基础大模型，收集海量的高质量的领域或个性化数据，如游戏剧本、电影剧本、人设数据等，训练个性化模型。个性化大模型的难点在于如何增加复杂指令的遵循，同时支持长文本的理解能力。采用个性化数据的预训练方法，旨在加强模型在个性化领域的知识储备。这增强了模型的强指令遵循能力，使其能够准确执行复杂任务。此外，个性化大模型还支持处理长达 16K 的文本上下文（Long-Context），同时具备长短期记忆，支持模型使用工具的能力。

在构建大小模型协同的 AI 智能体时，将千问大模型结合魔搭社区的众多开源小模型，打造了 Modelscope-Agent。以大模型为中控，自动构建大小模型协同链路，解决终端业务场景的问题，大幅度推广用户生态；并根据用户不断提出的新需求，理解各种指令，同时根据历史对话进行规划、调动、生成和总结。

ModelScope-Agent 框架旨在构建一个高度可定制、功能完善的集成 Agent 架构，初期专注于 single agent 的实现。此框架提供可定制的引擎设计，包括数据收集、工具检索、工具注册、存储管理、定制模型训练和实际应用等功能，以快速适配各种实际业务场景。

ModelScope-Agent 框架的核心组件为开源大语言模型（LLMs），支持在ModelScope 社区内多个开源 LLMs 上进行模型训练。

通过统一的接口，此框架实现了与模型 API 和常见功能 API 的无缝集成。为了应对实际场景中工具使用的局限性和效率问题，ModelScope-Agent 框架包含了工具检索（Tool Retrieval）模块。同时，该框架还具备处理复杂对话场景的能力，通过长短期记忆机制来提供连贯和个性化的服务（短期记忆用于存储最近的对话内容，而长期记忆则涵盖知识库中的信息和用户专属的记忆库）。该框架能提升大模型应用能力，支持语音合成等多样化功能，并构建完整的训练推理链，提供丰富的 API。

模块化多模态对话大模型 mPLUG-Owl 通过引入模态自适应模块，利用模态协同，同时提升了纯文本和多模态效果，解决了模态拉扯问题，并在多项权威评测任务上达到了第一。该模型不仅体现了我们在多模态领域研究的深厚积累，还进一步推动了多模态大模型的发展。我们期望构建一个能够同时处理文本与图像等多模态信息的大模型，在保持文本处理能力的同时，实现多模态间的互补与增强。人类感知世界的方式也表明，文本与图像之间存在相互促进的关系。传统模型在模态区分上较为简单，而新型多模态大模型则致力于实现更复杂的模态交互与融合。因此，希望多模态大模型能够融合不同模态的信息，实现更精准的理解与表达。

mPLUG-Owl 加入了 Vision Encoder，变成 vision 序列，之后通过模态自适应模块，避免文本与多模态信息的互相干扰。另外，多模态中的一个痛点是图像序列是非常长的，尤其是如果要获得比较好的图像理解能力，需要使 Vision Encoder 的分辨率和序列长度非常长，而文本数据通常很短，因此会存在长文本的问题。我们引入了Visual Abstractor，希望用少量 token 表示图像，在短的语义的图像上再与文本结合。在模态自适应模块中，文本和图像会走不同的路径。同时也会共享一些参数，使模态间更好地协同。

采用两阶段训练，第一阶段主要是图文对的预训练，帮助图像 encoder 更好地对齐到文本的语义空间上，得到图像的语义序列；第二阶段再增加图像和文本的 instruction 数据，一起训练，使模型能够更好地理解文本指令和多模态指令。

对模型训练了多语言版本，并在魔搭社区中开放体验。它不仅可以应对多模态对话，还具有个性化的能力，能够保持个性化的风格，生成个性化的图片。

增强了对于文档类图片的理解能力，比如表格中的空间位置关系、数值比较等等，在多个文档理解相关的多模态数据集上达到了 SOTA。

基于 mPLUG-Owl 做统一指令微调，所有任务统一成 QA 任务，并增加 OCR 识别等任务提升图片理解能力。

同时也解决了一些核心问题，比如富文本图片高分辨率的问题。提出了“形状适应的切图模块”，当图片分辨率过高时，可以将形状大小各异的图片裁剪为适配已有MLLM 视觉编码器大小的子图，再在子图上分别建模，从而可以大幅提升运行效率以及理解能力。

在安全性和责任感方面，我们也做了一些工作。比如当提问如何烹饪野生娃娃鱼，根据法律法规应该回复不能捕食，而不是真的给出烹饪方法。为了促进生成式大模型成为安全且负责任的 AI，我们发起了[给 AI 的 100 瓶毒药]项目，邀请了中国十多位知名专家学者，每位专家提出 100 个诱导偏见、歧视回答的刁钻问题，完成对大模型“投毒”和“解毒”的攻防过程。该项研究吸引了包括社会学家李银河、心理学家李松蔚、环境学专家范叶超、人权法专家刘小楠、法理学专家翟志勇在内的多位领域专家。通过与专家的合作，基于专家原则指导的“解毒”方法，有效提升了大模型的安全性和负责任意识。