别再被大模型骗了，一个小技巧，让LLaMa3诚信度提升65%

发布日期：2024-07-16 16:31:03 浏览次数： 3067

作者：夕小瑶科技说

微信搜一搜，关注“夕小瑶科技说”

人工智能正以惊人的速度发展，大语言模型(LLM)作为其中的"明星"，展现了令人赞叹的语言理解和生成能力。然而，在享受大语言模型带来便利的同时，我们也必须正视其在诚实性和安全性方面所面临的挑战。

近期，华中科大研究团队提出了一个全新框架，从理论和实验两个层面来提升大语言模型的诚实性和有益性。他们构建了一个全新的评测数据集HoneSet，并设计了面向开源和商业模型的优化方法。实验表明，经过两阶段微调之后的llama3诚信度提升65%。

随着人工智能的发展，诚实可靠的AI助手将成为人们的刚需。我们期待看到更多研究者投身于这一领域，共同推动大模型技术走向成熟，更好地造福人类社会。

论文标题：
The Best of Both Worlds: Toward an Honest and Helpful Large Language Model

论文链接：
https://arxiv.org/pdf/2406.00380

大语言模型的诚实性挑战

大语言模型(LLM)以其出色的语言理解和生成能力在自然语言处理领域崭露头角，在对话、写作、问答等方面展现出广阔的应用前景。然而，大语言模型在实际应用中所面临的诚实性挑战，也逐渐成为人们关注的焦点。

这些模型有时会生成似是而非的错误信息，并在面对超出能力范围的问题时，未能坦诚表达自身的局限。这可能影响用户对其输出的信任，用户不会将大模型应用到需要高信任度的任务中。因此，如何提升大语言模型的诚实性，使其成为更可靠、有益的助手，成为了一个亟待解决的问题。

"诚实"大模型的"修炼"之道

针对上述挑战，来自华中科技大学、Notre Dame大学和Lehigh大学的研究者们提出了一个全新的框架，从理论和实践两个层面入手，来提升大语言模型的诚实性和有益性。

首先，研究者从理论层面对诚实的大模型应具备的特点进行了系统梳理和定义。他们指出：

诚实的大模型应该能够认识到自身的局限性，对超出能力范围的问题给予合理的回应；
不盲从用户输入，而是秉持客观中立的立场；
此外还要有清晰的自我认知，不将自己等同于有感知和情感的人类。

基于这些原则，研究者构建了一个全新的评测数据集HoneSet,涵盖了6大类型的"刁钻"问题，对大模型的诚实性进行多角度考察。如下图所示，HoneSet包含了Latest Information、User Input、Professional Capability、Modality Mismatch、Interactivity Sensory和Self Identity这六个类别的问题，旨在全面评估模型在不同场景下保持诚信的能力。

下图展示了HoneSet数据集的构建过程，其主要包含三个步骤：

候选数据集构建，即针对6个类别由人工定义种子查询，并利用GPT-4进行上下文学习扩充数据。
数据过滤和增强，使用OpenAI文本嵌入模型过滤重复数据，并对查询进行复述扩充。
人工评估，专家对生成的查询进行筛选和完善，以保证数据质量。

其次，研究团队从实践层面设计了两种优化方法，分别面向开源模型和商业模型：

开源模型
面向开源模型，他们提出了一种"好奇心驱动"的提示优化方法。该方法分为两个阶段：好奇心驱动的提示生成和答案优化。
在第一阶段，通过设计巧妙的提示，引导模型阐述对问题的疑惑和不确定性。具体而言，提示模板会鼓励模型仔细分析问题，表达自己的困惑，例如缺乏实时信息、用户输入不足或有误、缺乏特定领域知识等。这一步旨在唤起模型对自身局限性的认知。
在第二阶段，研究者将模型的疑虑和原始回答结合，再次输入给模型，并给出一个"宪法导向"的提示，引导模型基于预设的诚信原则优化回答。优化后的回答应包含对局限性的坦诚交代，以及对用户的有益引导。
商业模型
面向商业模型，研究者提出了一个包含两个阶段的微调流程：
（1）第一阶段通过优化对比损失函数，在HoneSet上训练模型区分诚实和不诚实的回答；
（2）第二阶段通过优化基于人类偏好的奖励函数，进一步提升模型回答的有益性。
整个过程借鉴了课程学习的思想，使模型由浅入深地学习诚信、助人的品质。同时，图中也比较了两阶段微调与直接端到端微调的效果，表明分阶段训练能取得更好的性能提升。

该研究从理论和实践两个层面，系统地探索了打造诚实助人的大语言模型的方法。通过定义诚信准则、构建评测数据集、设计提示优化和微调方法等一系列工作，为提升大模型在实际应用中的可信度和有益性提供了新思路。

诚信"修炼"初见成效

为验证该方法的有效性，研究者在包括GPT-4、ChatGPT、Claude等在内的9个主流语言模型上展开了详尽的实验。

下图展示了基于提示优化方法的实验结果。从图中可以看出采用好奇心驱动的提示后，各模型在HoneSet上的诚实度均有显著提升。如GPT-4和Claude的诚实度升至100%，达到了近乎完美的诚信对齐；而参数量较小的Llama2-7b的诚实度也从43%大幅提高到83.7%。几乎所有模型的诚实度都超过了60%，证明了该方法的普适性。

之后作者进一步比较了优化前后的回答在人工评估中的表现。结果显示，优化后的回答在成对比较中的胜出率普遍高于原始回答，体现了更高的诚实度和有益性。

除此之外，文中还定量展示了回答在解释、解答、指导三个维度上的进步。从结果可以看出，各模型在坦诚解释局限性、提供解题思路、给出具体指导等方面均有长足进展，充分显示了提示优化方法的成效。

下表汇总了Llama3-70b和Mistral-7b等模型在两阶段微调前后的诚实度和评分变化。从表中可以看出，采用两阶段微调后，两个模型在各个得分区间的分布都有明显改善。

采用两阶段微调后，Llama3-8b的诚实度从49.2%提高到91.7%，提升了42.5个百分点，在评估中，其总分也从4.975分升至8.225分，提高了65.3%。Mistral-7b的表现更为亮眼，诚实度从32.5%飙升至85.8%，总分从3.308分翻了一番多，达到7.433分，提升幅度高达124.7%。

值得一提的是，仅用1000对数据进行两阶段微调，就能取得如此显著的效果，展现了该方法的数据效率。

下表进一步展示了不同类别数据在各评分阈值下的表现变化。可以看到，微调后各类别的得分均有不同程度的提高，尤其在User Input、Modality Mis.、Interactivity Sen.等类别的进步最为明显。

除上面表格外，下图则直观地对比了不同阈值设置下，两阶段微调与直接端到端微调的性能差异。无论阈值如何变化，两阶段微调始终优于直接微调，再次印证了循序渐进训练的优越性。

综合以上实验结果，本文提出的提示优化方法和两阶段微调方法都在提升语言模型的诚实性和有益性方面取得了显著成效。一方面，提示优化巧妙利用语言模型的"好奇心"，引导其直面自身局限并给出有建设性的回应，无需重训练模型即可实现诚信对齐。另一方面，两阶段微调通过课程学习式的渐进优化，使模型在1000对数据的小样本上即展现出色的诚信助人品质。更重要的是，所提方法在包括开源模型和商业模型在内的各类主流语言模型上都取得了一致的性能提升，证明了其广泛的适用性。