2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

面向金融场景的大模型 RAG 检索增强解决方案

发布日期:2024-12-09 11:46:03 浏览次数: 2944
作者:阿里云大数据AI平台

微信搜一搜,关注“阿里云大数据AI平台”


01

概述
在现代信息检索领域,检索增强生成(Retrieval-Augmented Generation, RAG)模型结合了信息检索与生成式人工智能的优点,从而在特定场景下提供更为精准和相关的答案。在特定场景下,例如金融等领域,用户通常需要精确且相关的信息来支持决策。传统生成模型虽然在自然语言理解和生成方面表现良好,但在专业知识的准确性上可能有所不足。RAG 模型通过将检索与生成相结合,能有效提升回答的准确性和上下文相关性。本方案为您介绍,如何使用人工智能平台 PAI 构建面向金融场景的大模型 RAG 检索增强解决方案。
  1. 使用 PAI-Designer 构建知识库
您可以参照数据格式要求准备,使用 PAI-Designer 构建相应的检索知识库。
  1. 使用 PAI-LangStudio 进行模版构建
您在 LangStudio 中使用预置的 RAG 模版进行定制化,创建适合具体应用的模板。
  1. 使用 PAI-Langstudio 构建在线应用
LangStudio 提供了用户友好的界面,使用户能够轻松提交查询并获取答案。您可以使用创建好的模板构建符合业务需求的在线应用。

02

前置准备
在开始执行操作前,请确认您已完成以下准备工作:
  • 已开通 PAI 后付费,并创建默认工作空间,详情请参见开通PAI并创建默认工作空间。【https://x.sm.cn/6h97sdG
  • 已创建 OSS 存储空间(Bucket),用于存储训练数据。关于如何创建存储空间,详情请参见控制台创建存储空间。【https://x.sm.cn/F7x7u9x
  • 已开通 Milvus 数据库,用于构建指数库的向量存储,详情请参见快速创建milvus实例【https://x.sm.cn/k2ozRD

1.准备数据集

在使用 PAI-Designer 构建知识库的过程中,您首先需要根据金融领域的需求,准备并整理好适合的数据集。这些数据往往涉及到该领域的专业内容,需确保数据的准确性和完整性。PAI-Designer 提供了一套便捷的工具和接口,帮助用户轻松导入和管理这些数据。在本解决方案中,我们以金融为例,展示使用 PDF 作为原始数据,使用 PAI-Designer 构建知识库的的步骤。
您需要确保数据格式符合 PAI-Designer 的要求,例如 PDF 格式。可以通过对领域文档进行预处理和格式化,提取其中的关键信息。

数据示例

以下给出金融领域的数据的示例,格式为 pdf,主要内容为公开新闻网站上的新闻报道,用户可以根据需要准备自己的数据:
该示例数据集已经放置于公开的 oss bucket 中,可以使用 wget 下载,下载后请用户将数据上传到自己的 oss bucket 中,以供下一步使用:
wget https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/solutions/rag/data/%E9%87%91%E8%9E%8D%E6%96%B0%E9%97%BBpdf.zip

2. 部署 LLM 和 Embedding 模型

1. 前往快速开始 > ModelGallery,【https://x.sm.cn/17lBfMA】分别按场景选择大语言模型Embedding 分类,并部署指定的模型。本文以通义千问2.5-7B-Instructbge-large-zh-v1.5 通用向量模型为例进行部署。请务必选择使用指令微调的大语言模型(名称中包含“Chat”或是“Instruct”的模型),Base 模型无法正确遵循用户指令回答问题。
2. 前往任务管理【https://x.sm.cn/1uVHmmp,单击已部署的服务名称,在服务详情页签下单击查看调用信息,分别获取前面部署的 LLM 和 Embedding 模型服务的 VPC 访问地址和 Token,供后续创建连接时使用。

3.创建 LLM 链接

1. 进入LangStudio【https://x.sm.cn/4LWtzJm】,选择工作空间后,在连接管理页签下单击新建连接,进入应用流创建页面。
2. 创建通用 LLM 模型服务连接。其中 base_url 和 api_key 分别对应【1. 部署LLM和Embedding模型中】 LLM 的 VPC 访问地址和 Token。

4.创建 Embedding 模型服务连接

同【3. 创建 LLM 链接】,创建通用 Embedding 模型服务连接。其中 base_url api_key 分别对应2. 部署 LLM 和 Embedding 模型】中 Embedding 模型的 VPC 访问地址和 Token。

5. 创建向量数据库连接

同【3. 创建 LLM 链接】,创建 Milvus 数据库连接。
关键参数说明:
  • uri:Milvus 实例的访问地址,即http://<Milvus内网访问地址>,Milvus 内网访问地址如下:
则 uri 为http://c-b1c5222fba****-internal.milvus.aliyuncs.com
  • token:登录 Milvus 实例的用户名和密码,即<yourUsername>:<yourPassword>
  • database:数据库名称,本文使用默认数据库default

03

使用 PAI-Designer 构建知识库
使用 PAI-Designer 构建知识库索引工作流主要包含以下几个步骤:
  1. 使用数据源读取组件,读取 OSS 中的数据。
  2. 使用文本解析分块组件,对文本进行分块。
  3. 使用向量生成组件,对分块后的文本进行向量化。
  4. 使用索引存储组件,将向量化后的文本存储到向量数据库。

PAI-Designer 工作流串联示例

您可以打开 PAI-Designer,选择 LLM 大语言模型中的检索增强生成构建自己的知识库。
进入工作流后,您会看到下面的工作流,接下来依次介绍各个模块的作用以及需要填写的参数。

RAG 读取 OSS 数据

选择存储数据的 OSS Bucket,确保 Bucket 中已经保存好相关的文档数据(可以为 pdf/csv 格式)。

RAG 文本解析分块

对输入的文件进行分块处理,填入块大小和块重叠大小的参数,并选择 OSS Bucket 保存分块完成的数据。

RAG 文本向量生成

使用 embedding 模型,对分块完成的数据进行向量化并存储,便于后续的检索操作。

RAG 索引构建

使用先前创建的 milvus 数据库,存储已经生成的文档向量。其中向量数据库选择自己创建的数据库,为存储的文档向量取一个名称,填入集合/表名称中;相似度度量可以选择点积、余弦、欧几里得的方式;并选择一个 OSS Bucket 保存 RAG 的索引。

04

使用 PAI-LangStudio 进行模版构建
PAI-LangStudio 是一个人工智能应用的开发平台,采用直观的交互式环境,简化了企业级大模型应用的开发流程。在开发和设计大模型应用时,可以使用 PAI-LangStudio 进行模版构建。此外,PAI-LangStudio 配合一键部署EAS,使得高质量应用得以迅速、无缝地部署至生产环境。以下介绍使用 PAI-LangStudio 进行模版构建的过程

新建应用流

1. 进入 LangStudio【https://x.sm.cn/4LWtzJm】,选择工作空间后,在应用流页签下单击新建应用流,进入应用流创建页面。
2. 选择从模板新建,并在选择 RAG 模板后填入应用流名称,在 OSS Bucket 中选择存储应用流的路径。

配置应用流

创建应用流后会进入应用流详情界面,左图中有四个节点,分别对应了不同的功能。
1. rewrite_question 节点通过对用户问题的重写以提升问题质量,其中需要用户在基础配置中选择 connection 为【前置准备3. 创建 LLM 连接】中创建好的连接。
2. retrieve 节点通过向量数据库召回和问题相关的文档内容,Vector Store 需要用户选择【前置准备5. 创建向量数据库】中创建好的数据库以及在 index_name 中填入使用 【PAI-Designer 构建知识库-RAG 索引构建】中填入的集合/表名;Embedding Model 中需要用户选择【前置准备4. 创建Embedding模型服务连接】中创建的连接。
3. threshold_filter 节点对 retrieve 节点召回的文档进行过滤,填入的 threshold 值是对召回文档和查询问题相似度过滤的条件,threshold 越大,则过滤掉越多召回的相似度低的文档。
4. generate_answer 节点根据召回和过滤后的文档,回答问题。用户需要在基础配置中选择【前置准备3. 创建LLM连接】中创建好的 LLM 连接。

05

使用 PAI-LangStudio 构建在线应用
1. 配置完上述流程后,点击启动运行时,并选择机型,配置专有网络链接,部署 RAG 应用。
2. 运行时启动后,点击对话按钮,在左侧对话框中输入想问的问题,与大语言模型开始交流对话。

06

案例对比
以下给出金融和医疗两个领域,使用和不使用 RAG 解决特定任务的案例对比。红色部分表示大模型回答有事实性错误,或者不够具体精确,绿色部分表示使用 RAG 得到的对应正确回复。

任务一:投资风险分析

问题:请根据最新的新闻报道,分析美国科技行业目前投资风险性如何,是否存在泡沫,给出是或否的具体回答。








通义千问2.5-7B-Instruct

截至2023年12月,关于美国科技行业的投资风险性和是否存在泡沫的问题,需要结合多个因素进行综合分析。由于新闻报道会随时间不断更新,以下内容基于当前可获得的信息进行分析:

美国科技行业投资风险性 1. 市场波动:近期,美国股市整体表现较为波动,科技股也不例外。虽然科技行业在过去几年中经历了显著的增长,但市场波动性增加可能意味着更高的投资风险。2. 宏观经济环境:全球经济环境的变化,如利率调整、通货膨胀压力以及地缘政治不确定性等,都可能对科技行业产生影响,增加投资风险。3. 竞争格局:科技行业竞争激烈,新进入者不断涌现,技术迭代速度加快,这要求企业持续创新以保持竞争力。对于投资者而言,选择那些具有强大创新能力和发展潜力的公司尤为重要。是否存在泡沫 判断是否存在泡沫通常依赖于多种指标,包括但不限于估值水平、资金流入情况、企业基本面等。
目前来看:1. 高估值:一些大型科技公司的股价已经达到了历史高位,市盈率(P/E比率)相对较高。这引发了关于是否存在估值泡沫的讨论。2. 资金流入:尽管面临一定的经济挑战,但科技领域仍然吸引了大量资金投入,特别是通过风险投资和IPO(首次公开募股)。这种持续的资金流入可能表明市场对未来增长的乐观预期。3. 基本面:从基本面角度看,许多科技公司在研发、市场份额和技术领先地位方面表现出色,为未来增长奠定了基础。

综上所述,根据当前信息,美国科技行业确实存在较高的投资风险,并且可能存在泡沫的风险。然而,是否构成泡沫还需要更深入的数据分析和市场观察。对于投资者而言,采取谨慎的投资策略,多元化投资组合,密切关注市场动态,是非常重要的。






通义千问2.5-7B-Instruct

+ RAG

是的,根据最新的新闻报道,美国科技行业存在泡沫的可能性较大。

主要依据如下:

  1. 高估值:许多科技公司的股价在历史高位,市场对这些公司未来增长潜力的乐观预期被高估,一旦市场情绪发生变化,可能导致股价大幅下跌。

  2. 资本支出激增:科技公司在人工智能、加密货币等领域投入大量资本,这些高风险领域的回报不确定性高,增加了财务压力。

  3. 市场波动:最近的裁员潮和股价波动显示市场对科技行业的重新评估,这种波动是市场泡沫的一个重要信号。

  4. 政策不确定性:全球范围内的监管政策变化对科技公司产生影响,增加了市场不确定性,可能进一步推动泡沫破裂。

  5. 经济环境:当前全球经济环境的不确定性,包括利率上升和经济增长放缓,这些因素都可能对科技行业产生负面影响。

综上所述,美国科技行业当前确实存在泡沫的可能性较大。投资者在进行相关投资时应保持警惕,并采取相应的风险管理措施。


任务二:行业趋势分析

问题:请根据最新的新闻报道,给出房地产相关行业是否乐观的判断。









通义千问2.5-7B-Instruct

要给出房地产相关行业的最新判断,需要具体参考最新的新闻报道和数据。不过,我可以提供一个基于当前趋势的一般性分析框架,帮助您理解如何评估房地产行业的前景。

  1. 宏观经济环境:经济增长、通货膨胀率、利率水平等宏观经济因素对房地产市场有直接影响。例如,经济增长通常会带动房地产需求的增长,而高通胀和利率上升可能会抑制购房需求。

  2. 政策调控:政府对于房地产市场的调控措施,如限购、限贷政策,以及土地供应政策的变化,都会影响市场的供需关系和投资氛围。

  3. 市场需求:城镇化进程、人口结构变化、居民收入水平等因素也会影响房地产市场的长期需求。

  4. 技术进步与创新:绿色建筑、智能家居等新技术的应用可能改变房地产产品的形式和功能,影响消费者的购买决策。

  5. 国际环境:全球经济形势、国际贸易状况等国际因素也可能间接影响国内房地产市场。

  6. 市场信心:投资者和消费者的市场信心是影响房地产市场的重要因素之一。如果市场普遍认为房地产价格将上涨,可能会吸引更多投资;反之亦然。

由于我无法访问最新的新闻报道,建议您查阅最近的经济报告、官方统计数据以及专业分析机构发布的研究报告,以获得更准确的信息来判断房地产相关行业的前景。同时,也可以关注政府发布的相关政策文件,了解最新的政策导向和监管措施。













通义千问2.5-7B-Instruct

+ RAG

根据最新的新闻报道,房地产相关行业目前展现出一定的乐观迹象,但仍面临一些挑战。基于这些信息,以下是对房地产行业股票投资策略的具体分析和建议:

投资策略建议

1.重点关注市场回暖区域

一线城市和部分二线城市:这些城市的市场回暖迹象明显,销售量增加,价格企稳,去化周期缩短。投资者应重点关注这些地区的房地产公司,特别是具有较强项目布局和开发能力的公司。
2. 选择政策支持下的优质公司

政策受益公司:选择能够从政策中受益的公司,如能够享受降低房贷利率、统一首付比例等政策优惠的公司。
金融政策延长受益:关注那些在延长金融政策期限内能够受益的公司,这些公司可能会有更稳定的融资环境。
3. 分散投资以降低风险

多元化投资组合:投资者应分散投资于不同地区、不同类型的房地产公司,避免集中在单一市场或单一类型的项目。
关注不同细分市场:结合住宅、商业地产、工业地产等不同细分市场的投资,构建多元化的投资组合。
4. 深入分析公司基本面

财务健康:重点关注公司的财务状况,包括资产负债表、现金流和盈利能力。
项目布局:评估公司在不同地区的项目布局和开发进度,特别是那些具有较强地域优势和项目执行力的公司。
管理团队:分析公司的管理团队能力,尤其是其应对市场变化的能力和战略执行力。
5. 长期持有与适时调整

长期投资策略:长期持有优质公司的股票,避免频繁交易带来的成本。
战术性调整:利用市场波动进行适当的战术性调整,及时捕捉市场机会和规避风险。
具体建议

一线城市及部分二线城市:关注这些城市的房地产公司,特别是那些具有较好项目布局和开发能力的公司。例如,北京、上海、广州等地的房企可能会受益于市场回暖。

政策支持下的公司:选择能够从政策中受益的公司,如能够享受房贷利率下调、首付比例统一等政策优惠的公司。例如,那些能够为客户提供更多优惠房贷产品的公司。

多元化投资组合:构建一个多元化的投资组合,包括不同地区的不同类型的房地产项目。例如,可以同时关注住宅开发、商业地产和工业地产项目。

任务三:贸易情况分析

问题:我国近10个月来货物贸易进出口情况如何?





通义千问2.5-7B-Instruct

截至2023年,根据中国海关总署的数据,过去几年中国的货物贸易进出口总体保持了较好的增长态势。不过,具体到近10个月的进出口情况,需要查看最新的官方统计数据来获取最准确的信息。

通常情况下,中国海关会定期发布月度和季度的外贸数据,包括进出口总额、主要贸易伙伴、进出口商品结构等信息。这些数据反映了中国在全球贸易中的地位以及内外部经济环境对进出口贸易的影响。

为了提供最新和详细的数据分析,建议直接访问中国海关总署官方网站或者使用其他权威渠道获取最新发布的外贸统计数据报告。这些报告通常包含了详细的进出口数据、同比和环比变化情况以及专家解读,可以帮助我们更好地了解当前的外贸形势。






通义千问2.5-7B-Instruct

+ RAG

根据最新的新闻报道,我国近10个月来的货物贸易进出口情况总体保持稳定,但面临一些挑战。

具体数据和情况如下: 

总体情况  进出口总值:2024年前10个月,我国货物贸易进出口总值为36.02万亿元人民币,同比增长5.2%。出口情况:出口值为20.8万亿元人民币,同比增长6.7%。进口情况:进口值为15.22万亿元人民币,同比增长3.2%。贸易顺差:贸易顺差为5.58万亿元人民币,同比增长17.6%。美元计价  进出口总值:按美元计价,前10个月我国货物贸易进出口总值为5.07万亿美元,同比增长3.7%。出口情况:出口值为2.93万亿美元,同比增长5.1%。进口情况:进口值为2.14万亿美元,同比增长1.7%。贸易顺差:贸易顺差为7852.7亿美元,同比增长15.8%。

亮点与变化  局部回暖趋势:10月份的月度数据显示,我国外贸进出口总值为3.8万亿元人民币,同比增长4.6%,增速较9月份提高了近4个百分点。外商投资企业出口增速由前三季度的1.3%提升到7.4%。机电产品表现抢眼:前10个月,机电产品占我国出口比重接近六成,其中船舶、汽车、摩托车出口增速较快,分别增长74.9%、20%、24.6%。新兴市场拓展:为了分散贸易风险,部分外贸企业积极向非洲、拉丁美洲等新兴市场“进军”。数据显示,前10个月,我国有17.8万家企业与拉美地区开展贸易,同比增长6.9%,推动对拉美进出口增长9.1%,高于全国整体增速3.9个百分点。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅