微信扫码
添加专属顾问
本文使用LangChain 结合 Ollama的qwen2:7b模型,抽取出全国市级单位每一年预期生产总值指标。
本文使用Ollama的qwen2:7b,显存占用只有5G左右,适合大多数消费级显卡运行。
从相关政府工作报告的文本中,筛选出包含目标信息的句子;
提示工程,使用few-shot提示,通过几个例子,定义模型的输出格式;
大模型的输出结果插入到pandas的DataFrame中,后续转成excel;
文中关键句子定位,从一整篇文本中,定位到包含有目标的信息的句子。
因为喂一整篇文本给大模型会导致精度下降,使用句子级别的短文本能够提高模型信息抽取精度,
从一篇文章中,筛选出相关文本。通常可以使用向量相似筛选和关键词筛选等。
向量筛选:目前行业内常用的是基于向量的相似度的文本块筛选(RAG文本召回技术), 类似 llama-index 结合chatglm3-6B 利用RAG 基于文档智能问答, https://blog.csdn.net/sjxgghg/article/details/136963355。
关键词筛选:本项目直接使用关键词筛选,找到包含有目标信息的句子,这么明显与简单的项目需求,使用关键词筛选召回率更高;
虽然目标句子中含有很明显的经济指标性数据,不建议使用正则表达式进行识别。
因为有的文本表述变化很大,正则表达式很难识别出来。直接让大模型进行信息抽取很方便。
在拿到包含有目标信息的句子后。使用提示词告诉大模型要抽取值和应该返回的格式。
提示词如下所示:
prompt = """
参考下述例子,生成相应的回答,请你从中提取出今年生产总值的预期增长值是多少?
按照下述提供的json格式返回结果。
Input: 孝感市1894年文件节选:主要预期目标是:全市生产总值增长10%以上
Output: {"city":"孝感市", "year":"1894", "GDP_growth":"10%"}
Input: 上海市1895年文件节选:初步核算,全市生产总值比上年增长11.1%,规模以上工业增加值增长21.7%,全社会固定资产投资增长22.6%,社会消费品零售总额增长13.7%,地方一般预算收入增长18.1%,实际利用外资增长12.4%,外贸出口增长28.4%,城镇居民人均可支配收入增长10.1%,农民人均纯收入增长10.2%,年初确定的主要预期目标和各项工作任务全面超额完成\n今年经济社会发展的主要预期目标是:生产总值增长12%,全社会固定资产投资增长20%,'
Output: {"city":"上海市", "year":"1895", "GDP_growth":"12%"}
Input: {filename}年文件节选:{content}
Output:
""".strip()
给了两个Input和Output示例,供大模型去学习与参考模型的结构化输出。使用例子对大模型进行提示的方法称为 few-shot。
使用本地的Ollama qwen2大模型进行实验,这个大模型的推理速度大概每秒处理1.6条数据,显存只占用5G。
因为本地有6千份文本进行抽取,故选择的本地大模型,本地推理速度更快一点。当然 gpt-4o-mini 准确率更高,虽然其收费不贵,但是网络延时太大。
若要追求更快的速度,使用llamafactory通过vllm部署qwen2:7B,推理速度可以更快。我的显存48G,3090性能级别的显卡,按照往常的速度大概可以达到每秒推理15条数据,速度提升还是很明显的。
虽然llamafactory vllm部署不算麻烦,而且速度更快,(勤快人推荐用这个);
Ollama不用部署模型,使用简单一点,挂一下机等着出结果(开奖)✌️。
from langchain_community.llms import Ollama
llm = Ollama(model="qwen2:7b", temperature=0)
本工作使用的 few-shot 在一定程度上是为了实现大模型的结构化输出。
其实OpenAI 在本月已经支持结构化,若没有大量文本推理的需求,选择gpt-4o-mini是一个不错的选择,而且价格非常便宜,一次调用大概$0.000102左右,参考教程如下:How to return structured data from a model, https://python.langchain.com/v0.2/docs/how_to/structured_output/
在OpenAI 宣布支持支持结构化输出后,当时看到LangChain在第一时间对其进行了支持,看得出来都挺能卷的。
在全国所有市级单位,从2000年开始抽取出6000条数据。
虽然qwen2这个小模型的效果没有那么的强,但从它返回的结果来看,本人还是挺满意的。其中大模型的思考过程,体现出来了。
比如,下述是商丘市2011年的政府工作报告节选,在其中它没有提到要增长多少,只说要高于全省平均水平:
今年经济社会发展主要预期目标是:生产总值增速高于全省平均水平1到2个百分点,
财政一般预算收入增速高于生产总值增速2个百分点,全社会固定资产投资增长20%,
社会消费品零售总额增长17%,外贸出口增长21%,实际利用外商直接投资增长22%,
居民消费价格涨幅控制在4%左右,人口自然增长率控制在6.5% 以内,
新增城镇就业人员5.6万人,农民人均纯收入增长9%,城镇居民人均可支配收入增长9%,
节能减排完成省定目标。
大模型的输出结果是:生产总值增速高于全省平均水平1到2个百分点。这就是最优的回答。我并没有给大模型相关的提示,它能主动做到这一点,其实就很厉害了。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-26
拆解Agent Harness的11大核心组件与工程实践(附下载)
2026-06-05
让 Agent 快速上生产:基于 OceanBase 和 LangChain 打造的智能体系统解决方案发布
2026-05-19
90% 的 Agent 失败,不是框架不行,而是卡在 5 个工程问题
2026-05-14
用两行代码将 AgentRun 集成到你的应用
2026-05-06
LangChain 深度智能体(Deep Agents)入门
2026-04-19
万字讲透Agent Harness的十二大模块
2026-04-08
同一个模型,换个Harness排名跳了25位:智能体基础设施完全解剖
2026-03-28
LangChain的DeepAgents子代理实战:复杂任务为什么一定要交给 SubAgent
2026-04-19
2026-04-08
2026-05-06
2026-05-19
2026-05-14
2026-06-05
2026-06-26
2026-03-26
2025-11-03
2025-10-29
2025-07-14
2025-07-13
2025-07-05
2025-06-26
2025-06-13
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。