微信扫码
添加专属顾问
自大模型(Large Language Model,LLM)诞生以来,Prompt工程,即通过不断调整给予大模型的指令以优化大模型生成结果,开始成为模型调参以外的又一大“炼丹”事业。“Prompt工程师”这一功能角色也应运而生。
然而,正如充满玄学与不确定性色彩的“炼丹”,哪怕最熟练的“Prompt工程师”也很难保证调试出最优的Prompt,而这就限制了大模型实际落地的效果。为了解决这个痛点,来自北大的团队提出了一套“即插即用”的Prompt自动增强系统,即使对比当前的Sota方案也实现了超过6个百分点的效果提升,可以说在充分挖掘大模型潜力的同时,也真正实现了“全自动化”效果,非常之炫酷。
论文标题:
PAS: Data-Efficient Plug-and-Play Prompt Augmentation System
论文链接:
https://arxiv.org/pdf/2407.06027.pdf
作为提升LLMs性能的关键技术之一,自动提示工程(Automatic Prompt Engineering,APE)的目标是通过自动化的方式增强提示(prompts),以改善LLMs在特定任务的性能,并减少人工干预和时间成本。
然而,现有包括链式思考(Chain of Thought)和思维树(Tree of Thought)等策略在内,通过引导模型逐步推理问题的技术,尽管在一定程度上提高了逻辑一致性和准确性,但它们缺乏可扩展性。此外,近期其他一些APE研究,包括从优化器视角自动寻找提示的方法,以及将进化算法引入到特定领域的离散提示优化中,虽然表现出了一定潜力,但在实际应用中面临显著挑战,如评估每个提示的适应度需要大量资源,而探索多组提示的适应度更是会带来巨大负担。
此外,即插即用系统(Plug-and-Play Systems)因其在不同机器学习工作流程中的模块化和易集成性而受到重视,这些系统允许快速灵活地增强功能,轻松添加或替换新的处理模块,而无需重新设计整个算法。由于它们能够无缝增强现有AI系统的功能,随着LLM技术的快速发展,对即插即用系统的需求也在不断增长。本文提出的PAS方法,正是基于即插即用系统所实现的,通过简单地增强输入提示,并充分了利用底座LLM的优势,不仅成本效益高,而且使得计算资源的利用更加优化。
本文从LMSYS-1M数据集和WildChat数据集中选择高质量的Prompt,数据选择过程包括三个主要步骤:
在自动补充Prompt数据生成阶段,本文设计了一个基于少样本学习(FewShot Learning)的自动化数据生成Pipeline。该算法主要包括两个阶段:
首先,在“数据生成”阶段,研究者们利用一组精选的golden数据对上述每个类别中的Prompt进行少样本学习(FewShot Learning),以生成相应的补充Prompt。这些golden数据包含了每个类别的少量示例,它们作为生成高质量(Prompt,补充Prompt)对的基础。生成的“Prompt-补充Prompt”对随后被添加到生成的数据集中。
为确保数据集的质量,在“数据选择和再生”阶段,每个生成的“Prompt-补充Prompt”对都会经过评估,以确定其正确性。如果评估结果不正确,该对会被移除,并重新进入“数据生成”阶段,利用少样本学习重新生成答案,直至生成正确答案。这一过程不断迭代,直到所有的“Prompt-补充Prompt”对都达到预期的质量标准。
通过这一自动化的数据生成和严格的选择再生流程,最终生成的数据集包含了大约9000个高质量的(Prompt,补充Prompt)对,这些数据被分为14个类别,每个类别包含大约500个数据,覆盖了绝大多数常见的Prompt类别。
前述的数据生成Pipeline创建的高质量(Prompt,补充Prompt)数据对被用于微调选定的LLMs,以赋予它们自动生成补充Prompt的能力,从而得到PAS模型。当得到补充Prompt后,将其与原始Prompt进行拼接,输入到下一个LLMs当中,生成最终的答案。
作为一个自动的提示补充工具,PAS可以集成到任何可用的LLMs中,通过公共API或开放参数进行集成。这种灵活性使得PAS能够在不同的平台和系统中广泛应用,增强现有LLMs的能力,而无需进行广泛的重新训练或修改。
为了全面评估PAS模型的性能,本文选择了几个较小的模型来高效地训练PAS模型,包括Qwen2-7b-Chat和LLaMA2-7b-instruct。这些经过训练的PAS模型随后被用于一些大型的、最先进的模型上,例如GPT-4-turbo-2024-04-09、GPT-41106-preview、GPT-4-0613、GPT-3.5-turbo-1106、Qwen2-72BChat和LLaMA-3-70b-instruct。从而展示PAS模型在不同规模的LLMs上的适用性和效果提升。
同时,本文将PAS模型的性能与不使用APE模型的基线模型进行了对比,并且与之前最先进的自动Prompt工程(APE)方法BPO进行了比较,以此来展示PAS的有效性。
评估PAS模型有效性的三个综合基准测试包括:
首先,本文选择Qwen2-7B-Chat作为基础模型,训练了一个PAS模型,并将其与未使用APE模型的基线模型以及之前的最先进APE模型BPO进行了比较。实验结果显示,PAS在所有指标上都显著优于基线模型,平均提高了8个百分点,证明了使用补充Prompt的优势。例如,在GPT-4-0613模型上,PAS将平均分数提高了11.46个百分点。此外,即使对比强有力的Sota模型BPO,PAS也实现了平均6.09个百分点的提升,表明了PAS在提升基于Prompt的学习系统方面的有效性和鲁棒性。
接下来,本文固定基础模型为与BPO相同的LLaMA-2-7b-instruct,并利用生成的补充Prompt数据对其进行了微调。结果表明,PAS在性能指标上相比BPO有显著提高,平均超过BPO达3.41个百分点,特别在GPT-4-0613模型上,平均分数提高了5.89个百分点。即使在改进较小的模型上,如Llama3-70b-instruct,PAS仍然优于BPO,显示了其在不同评估模型和设置中的一致性和鲁棒性。
本文还将PAS与其他几种最先进模型的数据使用和灵活性进行了比较。在数据使用方面,PAS显著减少了与其他方法相比的数据消耗,仅使用了9000数据,而BPO使用了14000,PPO使用了77000,DPO使用了170000。
此外PAS的效率是BPO的1.56倍,PPO的8.56倍,DPO的18.89倍。在灵活性方面,PAS展示了其作为即插即用系统的优势,无需人工劳动,且适用于所有LLMs和任务。
为进一步确保实验严谨,本文还进行了人工评估,比较了PAS与没有任何Prompt增强的基线模型在综合评估指标上的性能,包括等级分数基准(Grade Score Benchmark, GSB)、可用性比例(Availability Proportion)、满分比例(Full Mark Proportion)和平均分数(Average Score)。这些指标能够全面地衡量模型在不同类别下的表现,如分析判断、主观建议、主观推荐、常识、事件查询、实体查询、行业知识和学术知识等。
评估结果显示,PAS系统在多个场景中均优于基线模型。具体来说,PAS在分析判断类别中实现了58.6%的胜率,在主观建议中实现了64.3%的胜率,在常识类别中实现了61.1%的胜率。这些数据表明,PAS系统在增强LLMs性能方面具有明显的优势,尤其是在提供准确、相关和全面回答方面。
进一步地,通过对比PAS和非PAS方法在不同评估基准上的表现,研究者们发现PAS在所有三个评估指标上均实现了显著提升。具体来说,PAS在满分比例上平均提升了11.43%,在平均分数上提升了0.41分,在可用性比例上提升了5.55%。这些提升证明了PAS系统不仅在自动化的评估基准上表现强劲,而且在人类评估者中也得到了积极反馈,展示了其用户友好的特性。
随着LLM的落地和实践经验日渐丰富,“应该怎么写Prompt”也逐渐发展出一套方法论,但实操过的朋友们或许都有感受,哪怕“理想再美好”,LLM实际上吐出的结果往往和我们的预期还是有一些“小差距”的,而不断去调试和优化Prompt以弥补这些“小差距”无疑是一件费时费力的事。
本文提出的PAS系统就旨在解决这一痛点,通过自动化的Prompt补充,显著提高了LLMs的性能,与之前最先进的模型BPO相比实现了超过6个百分点的提升。而PAS这一成果的取得也仅仅只使用了BPO 不到65%的微调数据量,进一步展示了PAS在数据效率上的优势,为APE的研究和拓展提供了一个强有力的指导方向。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-29
AI Coding 的底层框架:一切优化都是在对抗熵增
2026-06-29
给模型写方法论:拆解一个跨法域隐私审计Skill
2026-06-28
别再手工调 prompt 了,让 Agent 自己改自己的"操作系统"
2026-06-26
OpenAI工程师首次公开!教大家榨干 Codex
2026-06-22
用AI拆解WBS:我把3天的活缩到了10分钟出框架+2小时调
2026-06-22
Claude Code之父删了IDE!干掉提示词,只写循环
2026-06-20
从提示词工程到循环工程
2026-06-17
用 Claude AI 学会任何东西的 6 个万能提示词
2026-04-21
2026-04-07
2026-04-25
2026-04-14
2026-05-02
2026-04-20
2026-04-19
2026-04-14
2026-05-25
2026-04-18
2026-06-17
2026-05-23
2026-05-16
2026-04-14
2026-02-28
2026-02-12
2026-02-12
2026-02-08
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。