2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

“提示工程”的技术分类

发布日期:2024-07-28 23:16:00 浏览次数: 2842
作者:喔家ArchiSelf

微信搜一搜,关注“喔家ArchiSelf”

尽管大模型非常强大,但仍然有着自身的局限。大模型可以生成看起来非常值得信赖的内容并引用外部资源,但是,大模型本身并不能直接访问互联网也不能访问互联网的资源。偏见往往会使大模型产生某些定型的内容。当被问到一个不知道答案的问题时,大模型有时会产生“幻觉”或者产生错误的信息, 很多时候,即使是最简单的数学或常识的问题, 大模型仍然要挣扎一番。另外,通过操纵提示词,以忽略开发人员的指令并生成特定的内容。

大多数提示技术主要解决幻觉和解决数学/常识问题,而偏见和提示词攻击是需要单独讨论的话题。提示技术离不开提示词的编写,一些常见的规则可以帮助我们写出清晰而具体的提示词,例如:

  • 准确地说出要做什么(写、总结、提取信息) ;

  • 避免说什么不该做,而是说什么该做;

  • 具体描述,不要说“几句话”,要说“两三句话”;

  • 添加标记或分隔符以结构化提示符;

  • 如果需要,请求结构化输出(JSON,HTML) ;

  • 要求模型验证是否满足条件(例如: 如果你不知道答案,请说”没有相关资料“) ;

  • 要求模型首先解释,然后提供答案(否则模型可能会试图证明一个不正确的答案)。

通过提示工程技术,我们可以引入更多的时间和空间以及内容的属性,有助于更好地生成提示词。那么,提示工程技术有哪些呢?我们如何更好地使用它们呢?

分类是认知的开始。现有的大多数提示技术可以分为三类:

  • 单一提示技术:旨在优化一个提示的响应

  • 多重提示技术:为了解决任务而多次查询模型(或模型) 

  • 大模型与外部工具结合的技术

1 单一提示技术

LLM 非常擅长一次性学习,但是他们仍然可能在复杂的任务中失败。单一提示技术是提示工程的基础,常见的技术手段有:

  • Zero-Shot:使用自然语言指令的最简单的技术。

  • One-shot:一次性学习

  • Few-Shot:用正确的答案向模型演示类似的任务,提供一些关于标签空间、输入测试的分布和序列的整体格式的示例

  • Chain of Thought(CoT):思想链的提示通过中间的推理步骤使复杂的推理能力成为可能。这种技术旨在使模型对每个步骤进行迭代和推理。

  • Program-Aided Language Models (PAL):一种通过使用代码将解释扩展为自然语言来扩展思维链提示的方法,可以将LangChain中的 PALChain 作为参考实现。

2. 多重提示技术

基于不同的策略,将一个或几个提示技术组合在一起的,主要包括:

  • 投票排名:应用投票来得到正确的答案,例如, 自我一致性的方法(Self-Consistency)。

  • 分而治之:一组提示基于将复杂任务划分为几个提示,例如: 定向激励提示,知识生成,提示链,表链提示以及 Least-to-Most 的提示。

  • 自我评估:将检查输出是否符合指令的步骤纳入框架,例如,思维树等。

2.1 投票排名

投票排名策略中的自我一致性方法基于这样的直觉: “一个复杂的推理问题通常需要多种不同的思维方式才能得到独一无二的正确答案”。它要求相同的思维链提示几次,从而产生一组不同的推理路径,然后通过应用投票选择最一致的答案.

一般地,对算术和常识任务而言,应用自我一致性的效果在常规基准测试中为4% -18% 。

2.2 分而治之

分治是算法设计中使用最为频繁的技术之一,在许多经典算法中都可以发现分治策略的影子。排序中的归并排序、快速排序,查找中的二分查找都是用分治策略来实现的。分治策略的思想是将一个复杂的问题分解为两个或更多的相同或相似的子问题,再把子问题分成更小的子问题,直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并。

定向激励提示

在定向激励提示中有两个步骤: 产生提示(例如,关键字)和使用它们来提高响应的质量。定向提示用于总结、对话响应应生成和思维链推理任务,包括两种模式:

  • 一个小型可调整的策略模型被训练成产生提示(例如,一个暗示) ;

  • 基于前一步的问题和提示,利用一个黑盒大模型来生成一个摘要。

其中,策略模型可以通过监督下的微调来优化,使用标注数据和线下或基于 LLM 输出的在线奖励来强化学习,为 LLM 提供针对特定输入的指导,以达到期望的目标。

知识生成

知识生成的提示技术使用一个单独的提示来首先生成知识,然后使用它来获得更好的响应。

一般包括两个阶段:

  • 生成知识: 使用few-shot从大模型生成与问题相关的知识陈述。

  • 知识整合: 使用另一个打磨下对每个知识语句进行预测,然后选择最高置信度的预测。

该方法不需要对知识集成进行特定任务的监督,也不需要访问结构化的知识库,但它提高了大模型在常识推理任务上的性能。

提示链

提示链是一种简单但功能强大的技术,这种技术将任务划分为子问题,并逐个提示模型。提示链对于完成复杂的任务非常有用,有助于提高 LLM 应用程序的透明度,增加可控性和可靠性。

Least to Most提示方法进一步添加了一个步骤,在这个步骤中,模型应该决定如何将任务分解为子问题,在与符号操作、组合概括和数学推理相关的任务中,Least to Most提示表现良好。
[最小到最大提示.png]()

表链

表链提示技术,将表格数据被明确地用在推理链中作为中间思维结果的代理,该算法包括两个步骤:首先是动态规划,大模型根据输入查询和以前操作的历史记录从操作池中抽样下一个操作(操作链) ,参数生成涉及使用 LLM 和编程语言的应用程序为前一步操作中选定的参数(例如新的列名)生成参数,以执行操作并创建相应的中间表。

2.3 自我评估

思维树(ToT)技术概括了思想链的方法,允许模型探索多个推理步骤和自我评估的选择。要实施 ToT 技术,必须决定四个问题::

  1. 如何将中间过程分解为思维步骤?

  2. 如何从每个状态产生潜在的想法?

  3. 如何启发式地计算状态(使用状态评估提示) ?

  4. 使用什么样的搜索算法?

输入的提示必须包括解决问题的中间步骤的描述,以及抽样的想法或生成这些想法的说明。状态评估提示必须提供指令,说明要在哪些提示上选择下一步。对于需要进行复杂计划或搜索的任务, ToT 相对成功。另外,LangChain 在experimental.tot.base.ToTChain 类中实现了思维树技术。

3. 使用外部工具的大模型

实际上,使用外部工具的大模型提示技术就是基于大模型的应用,主要包括RAG 和Agent。

3.1 RAG

RAG 结合了信息检索组件和文本生成模型,在检索步骤中,系统通常使用向量搜索来搜索可能回答问题的相关文档。接下来,将相关文档作为上下文与初始问题一起传递给大模型. 在大多数情况下,使用 RAG 方法意味着我们检索 k 文档,并使用它们生成回答用户查询的所有输出令牌。

RAG 中的大模型可以进行微调,但实际上很少这样做,因为经过预训练的 LLM 足够好,可以按原样使用,而且微调成本太高。此外,RAG 中的内部知识可以以一种有效的方式进行修改,而不需要对整个模型进行再训练。

RAG 产生的响应更加真实、具体和多样化,改善了事实验证的结果。关于RAG 的更多内容,可以参考《大模型系列——解读RAG》。

3.2 Agent

当前,已经有多种agent 技术框架,这里简要介绍Reflexion 和ReAct。

反思(Reflexion)是一个通过语言反馈来强化语言主体的框架。反射代理通过语言反映任务反馈信号,然后在记忆缓存中维持自己的反思文本,以诱导更好的决策在随后的试验。

一般地,反思框架由三种不同的模型组成:
* Actor: 一个 LLM 模型,它基于状态观察生成文本和操作(使用 CoT 和 ReAct) 
* Evaluator: 一个 LLM 模型,它对Actor产生的输出进行评分
* Self-Reflection: 一个 LLM 模型,产生语言强化线索,以协助Actor自我完善

反思在需要顺序决策、编码和语言推理的任务中表现良好。

ReAct 的框架使用大模型以交错的方式生成推理轨迹和特定任务的行为: 推理轨迹帮助模型产生、跟踪和更新行动计划以及处理异常,而行为允许它与外部来源(如知识库或环境)接口交互并收集额外的信息。

ReAct 框架可以选择一个可用的工具(如搜索引擎、计算器、 SQL 代理) ,应用它并分析结果以决定下一个操作。ReAct 通过与简单的 Wikipedia API 交互,克服了思维链推理中的幻觉和错误传播的普遍问题,并产生比没有推理痕迹的基线更可解释的类人任务解决轨迹。具体地,可以参考使用 Langchain 工具实现 ReAct 的示例。

关于Agent 的更多信息,可以参考《基于大模型(LLM)的Agent 应用开发》以及《Agent 应用于提示工程》。

4. 提示评估技术

提示技术的测试指标在很大程度上取决于应用程序和可用资源,大模型提示词中的最小变化非常敏感,这些变化不是最优的,而且往往是主观的。无论选择哪种提示技术,将提示工程视为数据科学的过程都非常重要。这意味着创建一个测试集并选择指标,调优提示并评估它对测试集的影响。

尽管如此,提示的评估技术有一些基本的原则:

  1. 事实性和相关性: 生成的答案有多真实, 生成的答案与问题的相关程度。

  2. 检索:主要针对 RAG 和 Agent 管道,但可应用于生成的知识和定向提示,主要指标还是准召;

  3. 内部思维方式: Agent 和工具选择的准确性,为 Agent 提取工具参数, 从上下文中检索到正确的参数并进行了适当的转换, 在多轮对话中记住事实,正确的逻辑步骤,例如反思和思维链提示

  4. 非功能性:答案的风格和语气,没有偏见, 合规和安全检查, 提示注入实验。

5. 提示工程的方法小结

在应用提示工程的时候,提示语要清晰而准确,这样模型就不必猜测我们的意图。我们可以使用分隔符或标记添加结构, 通过展示示例和添加解释来帮助模型, 要求模型反复思考,解释它的解决方案。

对于复杂的提示词,请考虑将其拆分为子任务, 多问几次同样的问题, 并考虑添加一个模型自检的步骤。如果需要,将 LLM 与外部工具结合起来,并将提示调优视为一个数据科学过程,它是迭代的,需要评估。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅