我要投稿

保险AI落地密码：技术实战分享

发布日期：2026-03-02 17:21:43 浏览次数： 2433

作者：京东云开发者

微信搜一搜，关注“京东云开发者”

一、 AI Agent落地方法论与技术点

1.怎么选场景，定目标？

相信大家和我们一样，遇到的第一桩难事，就是选场景，定目标。目标场景定的不对，不但常常让产研的心血付诸东流，还会无法形成合力，形成由点线再到面的连招攻击。为了介绍我们如何选场景，定目标，先介绍一下京东保险在干嘛？我们做传统保险，在京东场内还有许多特色服务，比如零售商品延长保障，运费险，不爱吃包退，复购补贴，宠物险，账户安全险，上门医疗险，外卖准时宝等。不看不知道，一看~还真不知道。为了让大家用的安心，每一个场景都可以有保险参与深度的定制化建设，每一款产品又都有一条完整的产品供应链来保障运行。

为了回答在哪里开始，我们还需要先了解智能体。

什么是AI 智能体？人就是一个智能体。智能体就是像人一样，能够感知环境、思考决策并执行行动的智能系统。

Agent有哪些好处？解决哪些痛点？

缺人？——高效的AGENT前来救驾，AI Agent产能无限，准实时响应，解锁无限人力能开创的安全度和利润空间。

信息管理难？——透明的AGENT前来救驾，数字阳光，腐败绝迹；标准清晰，歧路清零；全局增改，无需培训；自驱自查，终止熵增。

需要自我解释的能力？——社交的AGENT前来救驾，建立Agent -人网络，人可监控，修改，接手Agent工作，和Agent合作。建立Agent- Agent网络，解锁群体智能。

业务变化大？——自主的AGENT前来救驾，Agent自适应，可以进行目标导向的灵活规划和持续进化。

Agent落地收益预估

当下Agent最擅长代理的类型是——在线的信息处理。在一家商业公司，最适合落地的场景，就是在线的把信息转化为金钱的场景。

智能体落地经济收益公式

R = (Ch - Ca) × D × A × S

R：智能体落地的经济收益

Ch：单位人力成本

Ca：单位Agent运行成本

D：转化链路的直接性（0~1）

A：Agent智识覆盖度（0~1）

S：规模

其中：

A= M /（TI）

M: 信息输入量

T 获得反馈的周期（时间单位）

I:基准智识难度（值越大越难）

从我们自己总结的智能体落地经济收益公式可以看到：

知识到金钱的转化路径越直接，原有转化链路成本越高，Agent智识能覆盖的链路和比例越全面，业务规模越大，则收益越大，越适合作为优先落地场景。

其中，Agent智识覆盖度取决于agent本身的准确率，想要Agent的效果好，需要选择场景任务本身难度不超过当下Agent智识可处理的阈值，可输入给Agent的有效指令信息越全面清晰越好，Agent获取外部反馈的周期越短越好。

为什么说保险供应链的生产流程非常适合AI Agent落地？

保险的本质是通过集体协作，将个体不确定的巨大风险损失，转化为确定的小额保费支出。

保险公司就是通过经营风险实现“把个体无法承受的大损失转化为群体可分摊的小成本”，这种经营风险的底层逻辑是基于概率建立起来的，风险的系数的预估是通过信息估算得来的，与AI的决策逻辑一脉相承。

保险供应链就是风险这种虚拟的概率型产品从生产到交付到售后的全流程，主要包含产品生产、定价、营销、交易、履约理赔、风控。

•虚拟的概率型产品本质使得AI Agent负责一款保险产品“从生到死”具备了底层逻辑上的可能性；

•保险业务的生产流程高度流程化与规则化，使得这个过程能相对容易地被AI Agent理解与学习；

•保险业务生产流程中，AI Agent提升的是最昂贵、最重复、最容易出错的人工环节，涉及大量知识到金钱的链路转换，收益和价值能直接快速地体现在业务结果中。

直面经营结果(规模/利润)增长而非过程指标的目标设计

Agent中文翻译是智能体，直译是代理。Agent的目标就是所代理角色的目标。成本和规模是最常见的例子，当他们串联成线和面，一个直面经营结果的agent化的保险供应链就产生了。

2.AI应用于生产是什么样的，需要怎样的技术积累？

Agent由上述组成部分演化而来，技术底座做的好，核心是每个技术模块的精益求精加整体架构的灵活性和成长性。我们将技术亮点总结如下：

亮点一：领域大模型——场景业务模型微调+小尺寸大模型学习保险数据及行业偏好。

通用大模型虽然具备强大的语言理解和生成能力，但在特定行业和业务场景中往往存在不足，主要体现在：

•领域知识匮乏，尤其是保险，金融领域相关的知识，导致这些领域的专业知识无法精准回答；

•语言风格与行业规范不符，专业性不足；

•价值观与行业导向(如合规、风险控制)不一致；

外挂知识库(RAG)的方式虽然可以部分解决掉专业性的问题，来适配生产流程，但部分ToB场景，及大多数ToC的场景中，尤其是实时意图理解相关的情景，要求大模型自身习得领域专业知识，才能做到精准识别用户意图，因此有必要训练保险领域大模型。

小尺寸模型通过业务数据微调，已经被证明在保险垂类场景可以满足业务需求。大部分ToC场景有实时性需求，需要做到与用户交互过程的实时响应，这也限制了模型参数不能盲目增加。另外现阶段保险AI业务变动还计较多，控制合理的尺寸可以在可控的成本内及时响应不断变化的业务需求。因此现阶段的最佳选择是训练一个保险领域的小尺寸大模型。随着未来AI业务更加稳定，方法论更加成熟，我们会逐渐增模型尺寸，来达到更好的业务效果。

亮点：

一、数据驱动的精准洞察力

通过融合海量、高质量的保险领域专有数据，包括：精算级保险条款库：覆盖全品类产品的标准化与个性化条款；真实的电商行为数据：动态反映用户消费偏好与潜在保障需求。通过持续预训练 → 监督微调 → 对齐优化”的三阶段，让模型擅长于条款解读，商机洞察和产品推荐。

二、上下文长度

在小参数模型中，利用上下文差值等技术，让上下文长度和长文本理解能力具有显著优势。为用户提供流畅、即时的交互体验，有效支撑高并发、低延迟的线上业务场景。

三、“LLM as Agent”理念实践

我们将大模型定位为具备任务执行能力的智能体（Agent），而非仅局限于问答系统。模型可主动调用外部工具、实时获取数据并执行复杂逻辑计算，独立完成产品对比、方案定制、核保咨询等全链路保险任务，从而真正转型为一个懂保险、能办事的智能保险专家。

四、少数据量情景下的训练链路设计

一般情况下，持续预训练（cpt）会选择从base model 训练，sft和对齐则从instruct model开始训练，这存在两个问题，一是cpt好的模型还需要大量的昂贵的instruct指令数据才能变成一个成熟的instruct模型，这里的数据成本和流程依赖会大大延迟模型的训练产出效率。二是SFT阶段的造成的对知识的灾难性遗忘很明显，所以需要在流程上或者数据上再去做混合训练来再SFT阶段输入知识，如：hybrid-turning， structTuning, 我们参考SHADOW-FT 的工作，利用BASE模型和INSTUCT模型在参数和后续SFT，DPO训练上表现的一致性，采用在base模型上SFT，和对齐训练，最后再将变化了的参数用一定的方式和Instuct模型叠加，获取相似效果来解决之前提到的两个问题。经验证，这种方式结合 structTuning做SFT阶段名词解释和知识注入，在知识保留上有更好的效果。

五、少数据量情景下的样本构造

使用种子数据，利用WizardLM ,MAGPIE,GraphGen,Condor,Self-Instruct,Self-QA,Self-KG等丰富的方法构造多样的训练数据。

六、科学测评

通用能力，保险通用能力，业务能力三方面展开测评，在保险通用能力上，由于没有开源权威榜单，构造相应榜单。

A. 业务把保险领域能力分为了八个维度，每个维度下有多个子类

•IDK 保险领域知识：保险知识解读、保险科学

•IMI 保险-医疗交叉：医疗实体抽取与标准化、诊断/Q&A、风险/处方预测

•IME 保险-电商交叉：商品风险点挖掘，用户POI标签

•IUC 保险理解与认知：意图理解、槽位填充（产品/标的/疾病）、属性抽取、条款解释、责任/产品选择分析

•ILR 保险逻辑推理：精算、金融数学、数值计算、免责条款推理

•IPE 保险职业考试：保险、医/药/兽医执业、精算资格、销售人员认证

•ISC 安全与合规：信息安全、基线控制、文档合规、价值对齐、问题识别、事实核查、合规验证

•IMG 营销增长：客户分群、服务总结、营销文案、推荐脚本、投资者教育、人群分类、策略制定

•ISD 服务对话：覆盖产品/监管解读、核保与保全、理赔评估与结算、保后操作、规划配置、条件化方案选择与对比、保费/保障计算等多轮服务对话

B. 任务格式

•多选（MC）

•判断（TF）

•开放问答（QA）

•多轮对话（MD）：模拟真实咨询场景的延伸式对话，要求跨轮次上下文理解与知识应用。

C. 难度 简单（Easy），中等（Medium), 困难（Hard）

亮点二：知识库，适配业务的深度检索

1.表格处理优化：

保险有非常多表格，传统OCR识别表格方法，仅输出文本，表格结构被破坏，无法识别单元格的层级和对应关系，我们经过实验，采用最简单的表格序列化方法，利用大模型对于markdown ,HTML 等序列化语言学习能力，对于非常不规则的表格也实现了很好的理解能力

转换后的表格<table>| 保障类型   | 场景                 | 区域   | 报销比例 | 免赔额   |保障类型：住院医疗 | 场景：一般住院 | 区域：国内 | 报销比例：80% | 免赔额：1000元  保障类型：住院医疗 | 场景：一般住院 | 区域：境外 | 报销比例：60% | 免赔额：2000元  保障类型：住院医疗 | 场景：意外住院（含手术） | 区域：全部 | 报销比例：90% | 免赔额：500元  保障类型：门急诊 | 场景：一般门诊 | 区域：国内 | 报销比例：70% | 免赔额：200元  保障类型：门急诊 | 场景：特殊门诊（含肿瘤放疗） | 区域：全部 | 报销比例：85% | 免赔额：300元</table>

2.利用层级分片（Structural Chunking），保持多长下文之前的全局一致性

适用材料：保险条款 材料特征：保险条款具有明确的层级结构（章→节→条→款），逻辑严谨，用户问题往往指向具体条文，如“自燃是否属于除外责任”“等待期内能否报销”等。

技术选型：

•按原有层级切分，以“条”或“款”为最小单元。

•每个 chunk 需附带元信息，如章节路径（第×章–第×节–第×条）、险种名称、生效日期等。

•延迟切分（Late chunking）：保留全局语义、减少割裂

◦整篇文档索引：首先以较大粒度（整章或整节）生成语义向量，保留上下文全貌

◦检索阶段粗召回：查询命中的相关章节

◦命中区域再细切：在检索到章节内部再按照300--600 tokens动态切分

3.微调训练embedding和基于大模型的rerank模块

对于人，条款，场景等关键内容向量化模块进行训练，增强检索效果。数据构造时可以采用假设回答弥补query 和答案之间的gap,训练的目标，即包含准确性，也包含多样性。

4.用意图识别和deepdoc补全复杂query多库搜索的路由模块

和deepsearch一样，query可能混合多库检索需求，或者混合精确查找和语义查找，用deepdoc进行query改写和查询规划，实现复杂查询。

亮点三:Agent做计划，三种策略满足不同场景。

和人做计划一样，agent做计划，也需要以上四个模块，规划阶段的目标是生成一个高质量、可执行的计划。挑战在于：

•理解复杂/模糊的意图：用户输入往往不精确。

•工具选择的准确性：如何从众多可用工具中选出最合适的？

•参数生成的正确性：如何为选定的工具生成正确的输入参数？

•处理依赖关系：如何正确识别和排序任务之间的依赖？

•应对不确定性：如何制定能够应对执行过程中可能出现的意外情况的计划？

我们混合使用三种方式实现意图识别和流程规划

策略一：基于提示词的流程编排和自主规划

流式
路由
聚合
编排
方案生成

（以上图片来自网络，侵权请联系作者删除）

将意图识别和流程反思规划的所有部件和流程写在代码或者提示词里。像上面的表格所示的流程编排，可以互相嵌套，实现很大的复杂性和可控性。适合容错率低，回复时长要求高的场景。

也可以采用纯自主agent模式，如下图所示：利用React，preAct 模式，形成 “plan → act → revise plan” 循环，进行更自主的规划。适合容错率高，回复时长要求低的场景。

部分固定用途的模块，如意图分类，工具选择和参数提取等，可以训练小的语言模型来实现更好的性能和准确性。

策略二：基于搜索增强的层级规划

这个链路适合海量工具和复杂环境的情况，可以大大减少模型的上下文压力。

基于搜索增强的知识组织及灵活层级规划流程：

•Data(线上化索引)：业务落地的关键，不仅要沉淀原始数据、明细数据和结果数据，并明确各类数据的含义，还需系统性地记录从原始数据加工至结果数据的全过程逻辑。

•比如利用 embedding 做一个“候选工具/Agent 粗筛”，再让 LLM 做最后决策

•Search：多智能体扩展的关键，将面向场景的扩展与模型定制化解耦。Agent应用如果伴随模型的定制化优化，将会变成一种很重的模式，从而限制应用的广泛性。用户发布具体任务时，首先将其转化为搜索任务，系统将检索与该任务相关的业务知识、业务逻辑及可用工具等业务导向内容，并提供给大模型进行处理。

•Think&Plan：根据搜索结果，大模型利用模型的推理能力、思维链、运筹规划等技术，进行深度思考和任务规划，明确后续需执行的操作并进行优化，如形成一个DAG运行图。

•Do&Environment：大模型利用AI NATIVE的业务系统提供的接口，完成系统调用等流程，实现对业务系统的实际操作。在执行过程中，可以利用编写程序，继续搜索等工具，完成现有工具无法涵盖的新任务。

•Reflection：通过业务系统产生的业务反馈，Agent系统能够自主的思考、优化、沉淀最佳实践，从而持续提升整个链路的运行表现。

策略三：基于RL的自主编排

这个链路适合环境随着agent行为改变比较剧烈的长程规划。我们以赋予智能体“从实践经验中自主学习、持续进化”的能力为核心目标。基于强化学习的模式以最终结果的奖励信号为核心驱动，通过 “行为 - 反馈 - 奖励” 的闭环持续优化策略，这种从结果倒推优化方向的逻辑，与人类 “从实践结果中总结经验、调整决策” 的认知本质高度契合。

智能体的执行过程RL抽象过程：

在关键决策点记录下系统的状态 (State)，并明确是什么调用 (Call)触发了从一个状态到另一个状态的转变，捕获这一系列(状态 -> 调用 -> 新状态)的序列。

状态（State）：在任务 x 的第 k 次执行中，时间步 t 的状态由一组变量构成：

调用（Call）：一次完整的执行由 N 次调用组成：

其中第 i 次调用的结构为：

•meta：调用的元数据（如组件名、API端点、LLM温度等）

•input：调用该组件时提供的输入

•output：组件执行后返回的输出

状态与调用的关系：

带奖励的执行轨迹（Execution with Reward）：将奖励信号加到每次调用上，得到可用于学习的完整轨迹：

最终将智能体的复杂执行过程抽象为标准的(component， input， output， reward)序列，在智能体的具体实现逻辑与通用的RL训练算法之间架起了一座桥梁，实现了二者的解耦。

应用展示：

亮点四：如名称Eva（进化）所暗示，架构设计重点保障成长性。

Eva Agent模块：

包涵四个主要部分：

•Agent专家角色实现——利用大模型实现保险行业的各专家能力；

•Agent专家能力扩展——利用各种外挂工具让Agent更加强大，这些外挂包括：

大脑外挂——记忆模块，让 Agent拥有从经验中学习的能力；

知识外挂——知识库，让 Agent拥有调用外部知识的能力，让Agent的决策更加可控，准确；

手外挂——工具模块，让Agent可以方便的使用各种工具来完成自己的任务。

脚外挂——行为模块，让Agent系统完成与浏览器提供的各种操作。

•Agent专家调度策略——在所有专家Agent之上，更高级认知模块。主要包括反思和计划模块，作用是协调和规划各专家Agent的行为，如任务拆解，优先级排序等，并依据外界反馈，优化Agent的行为。

•Agent专家持续进化——通过反思，训练优化模型表现。

外界任务进入后，Agent通过计划模块将任务拆解为各子任务流程，分派给各专业Agent进行推理。专业Agent调用历史记忆，知识，工具等模块作出决策响应。最后调用行为模块，产生最终行动，作用于EVA浏览器。反思模块再根据浏览器和业务系统的反馈，结合Agent运行产生的记忆，调整优化Agent行为。

经验及时积累，基于self-play 的RL模型进化。

一个自主交互式agent系统，一定要实现自身的进化和成长，不然不足以应对复杂多变的业务场景，而设计一个能从自身和人类经验中学习的系统，是最关键的一步。我们的自主交互式系统如下：

•角色是指用LLM的方式进行角色数字员工的角色扮演，模版角色是指利用可以复用于其他场景的基础角色。

•意图识别识别用户意图，我们将意图分为快速问答，知识检索，任务处理和探索发现类，决定是快速问答，调用知识库，调用任务处理机制，还是上网搜索整合信息以及自由组合多agent完成任务。通过领域与策略的提前区分，平衡速度，准确度，和答案覆盖度。

•知识搜索和工具是可靠的“资料库和听诊器”，结合深度文档搜索功能，提供高质量的答案。主要采用DeepDoc技术完成，将非结构化的文档（如PDF条款）转化为结构化、可查询、可推理的知识对象并进行自主路由和调用。

•记忆系统提供了对话历史和用户背景，分为短期记忆：存储用户最近对话等，长期记忆：存储经常参照的里历史，知识，准则，工作记忆：由LLM抽取器总结的对话和任务状态，情景记忆，对历史不同情景处理的好方案存档。

•策略库是由人，或者大模型反思总结起来的策略，包括观察到某种情况时，如何思考和行动，利用策略库达到badcase可控修复，经验沉淀复用的目的。

•动作空间是Agent可以灵活决策的空间，自主的Agent系统将自由的选择空间中的工具和知识完成用户请求。

•减少幻觉机制是严格的“质检员”，确保每句话都有据可依，在交互前，知识采集时，交互后都可以进行校验确认。

•经验池不断根据反馈挖掘用户对话中的好的策略，形成置信度低于策略库的策略，帮助Agent系统把握最新的事件和风险，学习第一手的人类示范，也可用以丰富策略库内容。

•反思进化模块建立基于强化学习的自训练反思链路，交互（通过经验重放，和环境交互，自我博弈产生数据）→训练（消化数据，优化策略模型和奖励模型）→进化（通过智能体环境循环，让进化步骤自迭代起来）这个闭环系统确保了智能体在不断试错、学习和自我挑战中，实现真正意义上的“成长”和“进化”。

通过这一整套流程，AI Agent才能在高精度、高风险的任务中，做到既准确又安全，最终成为一个值得信赖的数字员工。

经营结果及时反思，基于智能体角色的离线反思系统设计，实现面向收益和规模的Agent自主优化。

基于结果反馈的离线反思，对于效果也非常重要。

迭代过程：

1.初始化：这个基础版本的智能体们被赋予了预设的角色、目标和工作流程。

2.执行与评估：执行智能体按照基础配置运行，各司其职，完成任务，产生输出。这些输出接着被评估智能体拿去评估，对照着定性和定量的评估标准，打出一个分数。这个分数就反映了系统当前的性能水平。

3.优化：优化主智能体分析评估结果，找出改进点。修改智能体采纳改进方案，调整审核流程 & 规则，AI 评分阈值 & 决策标准。

4.新变体执行与评估：新的系统变体由执行智能体运行，产生新的输出。这些新输出再次被评估智能体评估，打出新的分数。

5.选择与迭代：选择智能体比较新旧变体的分数，如果新变体得分更高，那就说明它更优秀，就把新变体选为最佳变体，替换掉旧的。然后，系统就以这个新的最佳变体为基础，继续进入下一轮的迭代。如果新变体得分没有旧的好，或者提升的幅度很小，低于预设的一个阈值，那系统就会停止迭代，因为这时候再改来改去意义也不大了。当达到最大迭代次数时，系统也会停止。最终，系统会返回最佳变体及其输出，这个最佳变体就是经过多轮迭代优化后的最优系统版本。

3.经验回顾，什么是成功落地关键点？

落地项目，不仅仅是技术问题，这些技术亮点，大多数时候并不是成功的关键。回头反思，我们能顺利落地这些项目的关键，是有一个支持我们的系统。

1.算法向前一步，深入拆解业务，进行AI时代打法设计，搞定高定场景。

纸上得来终觉浅，绝知此事要躬行。尽管我们做了非常多抽象，高定场景业务细节需要算法躬身入局，仔细拆解。

在AI时代，算法了解AI，还需要了解业务。下文我们会仔细分解：定品-定价-履约-风控的目标和打法，与传统时代有啥不一样？看看为啥说理解业务，才是AI落地最关键的一步。

2.前、中、后台设计，助力全链路Agent覆盖

Eva智能浏览器：服务于保险业务各环节，实现与现有保险生产系统的⽆侵⼊集成，打开Eva浏览器自动具备AI助手功能，加速业务系统实现AI化升级

点击查看Eva浏览器视频获得直观感受

通过Eva浏览器打开业务系统，实现无侵入、低耦合采集业务系统页面数据，识别当前用户意图；记录学习用户操作行为，自动生成推荐工作空间。进入空间通过流程编排和多Agent调用，完成AI辅助工作。支持AI对话，多模态输入完成意图识别，调用多Agent精准输出结果，或推荐用户进入相关工作空间快捷开始工作。

Eva智能工作台：打造人与AI教学相长的协作模式，支持快速、高效的业务知识输入和智能体创建，支持AI决策过程的可观测、可运营、可接管，建设透明、可信的智能体过程


AI专家区	·通过训练，达成可上岗标准的Agent，围绕具体的场景开展工作； ·即可单Agent开展工作，也可通过多Agent协同，完成复杂工作；
AI工作区	·实时更新案件信息，Agent 7*24持续开展工作； ·输出Agent思考过程与决策要点； ·人可实时查看Agent执行过程，对Agent执行偏差的案例做出反馈，帮助Agent反思成长；
结果与回放	·执行结果同步进行展示，人可查看案件明细； ·Agent执行过程可回放，人可对Agent执行过程进行质检；

Eva智能体引擎：融合原算法引擎高效的数据->特征->规则->模型->编排的全链路能力，支持灵活的智能体搭建功能，支撑业务落地过程的高效、稳定

•数据链接层：支持灵活的数据接入，通过配置不同数据源(Drois、JDBC、Hive、Oss等)将数据接入系统;

•算力层：提供算法、模型、数据加工方法的发布、销毁、执行能力，支撑系统对数据的运算能力扩展；

•算力调度层：进行计算流量分发，均摊至算力层，同时支持触达业务或其他系统的能力；

•算法编排层：主要负责计算状态的流转，包括既定流程型流转和大语言模型自动判断的流转；

•算法分流层：主要负责ABTest和数据收集功能，提供支撑算法对结果分析、预测的数据；

•算法调用层：业务流量入口；

•管理层：对各层能力及结果进行可视化展示。

3.探索出AI时代的分工，大家搞，才能真的好

我们正从简单反应性 prompt 工程时期，走向更强自主性的多智能体上下文工程时期，在这个事情，我们探索出来的最佳分工是：

1.LLM的优化算法的事情。

2.提示词工程是大家的事情，归根结底是业务的事情。上下文工程现阶段是算法和研发的事情，归根结底是业务和研发的事情。

3.知识库是研发的事情，知识库需要产品化设计，知识库的组织需要数据团队的设计，知识库维护业务的事情。知识的召回，检索是算法的事情。

4.工具建设（MCP,serverless) 是研发的事情，工具灵活调度是算法的事情。

5.多agent的编排调用是业务的事情，agent的自主调度是算法的事情。

6.agent的测评是算法和测试的事情。

7.agent的反思，进化是算法的事情。

以上分工适合当下情况，agent是个快速变化中的技术，可以预见需要以后机动调整。

二、AI定品

1. AI时代直面业务增长的AI定品能力是怎样的？

看场景：

以延保为例，延保服务产品，1款产品0-1产生约10天+，涉及业务、产品精算、合规等，约至少4～6人协作，还要考虑后续监控，经营，履约成本。目前受限于生产方式，当前平均GMV渗透为0.0x%，只覆盖保费规模非常大的传统品类。

1.大量此前未覆盖的蓝海品类需进行快速延保产品设计上品覆盖；

2.成千上万保费规模非常小的场景，可以由agent去提升覆盖率；

3.定品不是一锤子买卖，当一款品卖的不好，或者超赔时候，及时下架，改价格或者调整条款。

得结论：

AI时代的定品——追求极致的规模

toC——实时直面用户需求的个性化产品定制。

toB——风险点地毯式搜索，覆盖的产品定制——“品海战术”；定品不在是在某个时间点发生，而是通过“自主运营”持续不断的改品（改条款，改价格，改上架状态），直至好品产生。

这将改写之前的定品逻辑，产生规模收入。

2. 保险定品的技术设计

技术亮点：deepsearch获取网络信息 + 多维特征深挖场内信息+ 滚动更新保障信息实时（我们的方案很好的利用统计信息来撬动大模型的创新性）

3. 当前进展和取得的效果

三、AI定价

1.从目前业务模式出发，直面业务结果的保险定价能力是什么样？

风险预估准：预估偏差不高于2%，基于海量数据和机器学习算法，建设千X千面动态定价能力；

经营调整快：全方位监控实时调整，基于经营预测和运筹优化，从被动调整转为事前主动预防；

报价效率高：从询价到报价不超过1分钟，用Agent重构询报价流程，建设高效自主的定价专家；

基于AI打造保险行业内预估最准、调整最快、效率最高的定价能力，支撑业务放开手脚、尽情展业

借数据+算法推动业务规模增长，降低边际成本、优化用户体验、提升展业效率，最终驱动订单渗透率、利润等业务核心结果同步增长。

2.为什么风险预估准、经营调整快、报价效率高是驱动规模增长的关键？

从整个保险供应链来看定价位于产品生产之后位于营销交易之前，其合理性直接影响规模和利润。定价需要通盘考虑保障责任、履约方式、运营成本等多个环节。精准性是基石，快速调整护航经营结果，效率是生产力。

保险定价与实物商品差异点就是，保险定价以风险概率为核心。前者聚焦可见的 “实物成本”，后者紧盯抽象的 “不确定风险”。而风险的动态变化和不确定性也为展业和定价带来巨大挑战。

3.直面结果的保险定价Agent怎么做？

采用自底向上的建设模式，先夯实底层能力/工具，再建设顶层Agent

之所以采用自底向上的 Agent 建设模式，核心原因在于：当前Agent无法完全代理核保、精算、经营等领域专家做出自主决策，也难以独立完成两类关键任务 —— 一是海量数据下基于机器学习的精准预估，二是百万商家/千万商品下的运筹求解。因此，我们的方案聚焦于 “先夯实底层工具能力，再搭建顶层Agent 交互体系”，分步实现能力落地。

AI定价专家：通过多智能体协同，模拟人类决策逻辑，解决定价不准、经营难、效率低等问题

很多算法面临的困局——Agent如何与机器学习、运筹和数据协同？

ML、OR、Data都可以被Agent调度，都可以是Agent的工具，各司其职

定价Agent：顶层智能体，负责与人交互、整体调度、协调。

机器学习：被Agent调度，用于数据分析和模型预测。

运筹：被Agent调度，用于优化决策和资源分配。

数据：被Agent、机器学习和运筹优化共同调度，作为共享资源。

大模型自主运筹探索和调研

在大模型自主运筹能力的探索与调研中，我们通过对比多款 “基模”在运筹学领域的表现，并针对 7 个挡位的调价场景模拟不同决策粒度后发现：当前基模仅能在小规模问题中呈现较好效果，难以在细粒度决策问题中实现最优化求解。此外，保险定价本身需基于大数定律开展各类杠杆测算，综合考量业务目标达成、ROI等核心因素后，我们最终确定采用 “自底向上” 的能力建设思路。

3.1Master Agent：系统 “大脑” ，承担业务交互、意图识别及任务调度核心职责，是全流程协同的中枢

3.2核保Agent：“风险审核与方案优化专家”，以风险可控为前提，探索更具竞争力的报价方案，平衡定价风险与市场竞争力

3.4精算Agent：“定价计算核心引擎”，依托海量数据与机器学习模型，输出科学且可解释的费率表，为报价精准性提供坚实保障

风险预估准：预估偏差不高于2%，基于海量数据和机器学习算法，建设千X千面动态定价能力

在当前保险场景下，随着海量数据持续积累，传统精算方法已难以满足精准、高效的定价。为此，需基于商家经营、产品画像、用户行为、承保履约等多维度数据，结合机器学习技术，构建 “千X千面” 的动态定价体系，最终支撑业务规模与利润的双增长。

打法3(多模型融合预估)：分别建立近7天、10天、15天出险率预估模型，将多模型结果统一校准至满期90天口径，有效提升稳定性和通用性通用性：可快速实现不同保险期间的千店千面定价，定价效率从数月→周级别

通用性：可快速实现不同保险期间的千店千面定价，定价效率从数月→周级别

打法1(大模型挖掘非结构化特征)：基于商品详情页、保障责任、履约方式等数据，借助大模型多模态能力，将非结构化数据转化为结构化特征

打法2(多产品线联合建模)：针对出险率与赔款预估的样本选取及模型构建，不再依赖经验进行产品线间的物理隔离，而是对质量、意外、全保等多个延保产品线实施联合建模，进一步提升整体预估精准度

出险率预估	赔款预估

打法3(实时报价捕捉风险)：以 “特征-模型-系统” 为核心，深挖风险特征，快迭代特征体系与定价模型，辅以实时询报价系统，敏锐捕捉风险，强化定价准确性与稳定性

3.5经营Agent：“价格运营与策略中心”，以全局视角监控定价全流程效果，为经营决策提供支撑，保障定价与业务目标对齐

全方位监控实时调整，基于经营预测和运筹优化，从被动调整转为主动预防

在当前经营中，不仅会因风险预警滞后，让正常的业务经营错失干预时机，还可能因对未来经营趋势判断不足，错失规模扩张窗口与利润优化空间，最终陷入 “调整永远赶不上变化” 的被动局面。

为此，我们建立了一套贯穿 “实时风险感知 - 未来趋势预判 - 科学策略输出” 的全链路闭环管理机制，最终实现从被动应对到主动预防的跃迁。

1)经营实时监测：搭建实时、多维的定价数据罗盘及主动触达机制，防患未然

2)未来经营预测：以历史经营数据结合实时监测指标为基，用机器学习预估经营关键指标，提前识别风险和机遇，实现从被动调整到主动预防的转变

预测目标:未来N天每天的整体出险率、保费收入、赔付支出等。

核心算法:

Prophet:非常适合具有强季节性、节假日效应的时间序列数据，且对缺失值和异常值稳健。

LSTM:深度学习模型，能捕捉更复杂的长期依赖和非线性模式。

Transformer:可融合外部变量，实现多变量时间序列预测，精度极高。

输入特征:

历史序列:指标过去90天的历史值。

外部变量:是否节假日、是否大促、实时异常信号、天气预报数据。

3)经营策略制定：结合经营预测结果与既定经营目标，通过运筹优化与沙盘模拟，输出科学决策方案，切实提升经营决策的效率与精准度

3.6从询价到报价不超过1分钟，用Agent重构询报价流程，建设高效自主的定价专家

在保险询报价场景中，展业人员提交需求后，需反复对接核保沟通风险、等待精算测算费率、同步经营端校验，不仅报价周期长，还因人工经验导致定价偏差 —— 既错失商机，又难平衡风险与市场竞争力。

以询报价Agent为核心彻底重构询报价流程，大幅提升效率。

询报价Agent：Workflow与ReAct相结合的模式，保障稳定性同时具备自主性

7x24小时延保询报价Agent，为用户提供了分钟级报价、方案调整建议、信息查询、知识问答服务。以京Me/Max/PC为载体，通过自然语言交互支持灵活展业，极大提升展业效率。

4.未来我们怎么做？

建设AI原生的定价范式，驱动规模、利润和体验大幅提升

经营预测：逐步由机器学习升级为 AI 原生大模型预估，攻克数据稀疏、模型拟合不足和泛化能力弱等痛点。

智能决策：围绕自动建模、加速求解和可解释性构建运筹大模型，解决运筹建模难、求解慢及难解释等痛点。

端到端决策：建立端到端决策模型，解决先预测后优化误差传递放大和大规模交易场景无法实时决策等痛点。

（以上图片来自网络，侵权请联系作者删除）

数据：多源数据底座

聚合保险、集团内部、外部三类数据，为后续模型提供产品线、供应链、市场环境等全维度、多场景的信息基础，支撑复杂业务下的预测与决策需求。

模型：“经营预测 + 智能决策” 双大模型协同

经营预测大模型：基于多源数据，通过 “特征融合” 整合产品线、供应链等海量业务数据，以 “多任务 + 多目标” 基座模型为核心，再经SFT适配业务场景、RLHF迭代优化，最终得到性能更优的模型。该流程实现了从传统统计学模型到机器学习大模型的技术升级，解决了 “拟合能力不足、泛化性差” 的痛点。

智能决策大模型：遵循 “问题描述→数学模型→垂直场景标签→代码编写→模型求解” 的流程，针对运筹优化场景，结合线性规划、整数规划、启发式算法等方法，实现 “自动建模（降低人工经验依赖）、加速求解（多算法适配不同复杂度问题）、结果可解释（垂直场景标签增强业务可读性）”，破解 “运筹建模难、求解慢、难解释” 的痛点。

端到端：OneModel一体化决策闭环

通过动态规划（DP）、统计方法、策略规则等生成监督标签，基于 “多特征输入（m-fea）→共享特征（share fea）→多子模块（sub1/sub2/...）→多输出（op1/op2/...）” 的 E2E 网络架构，搭配多目标损失函数（如 MinSum 融合 MSE 等指标），直接完成 “数据输入→决策输出” 的一体化过程。这种设计既避免了 “先预测后优化” 流程中误差传递放大的问题，也满足了大规模交易场景下的实时决策需求，实现了端到端决策的闭环。

四、AI履约

1. 直面业务增长的AI履约能力是怎样的？

履约成本一定程度决定定价能定多低，从而影响规模，AI时代的履约就是要直面业务指标和约束，追求极致的成本降低。

核心打法——打造多智能体协同的履约AI Agent，理解保险条款，履约方案、申请材料，面向结果(通过or拒绝)决策，决策效果更好(精准性90%+)、决策成本更低(分级)、决策效率更高(产能无上限)

2.保险履约的技术设计

从生产系统调度AI Agent走向AI Agent调度生产系统，通过数据流转互联互通

双盲验收测评，分阶段推全上线。

3. 当前进展和预期

经过抽检与测评，履约理赔AI已全量应用过期赔理赔场景，审核准确率94%+；AI审核覆盖业务单量占比95%+，运行稳定，单均审核成本0.02元；得益于审核范围的全量覆盖，对黑灰产与羊毛党起到震慑作用，理赔申请单量与理赔金额持续下降。

五、AI风控

1. 结合保险业务特点，AI驱动的全链路风控体系应该是什么样？

建设覆盖保险全链路的AI风控体系，实现从风险发现到风险处置的全流程自主高效，让保险业务的发展没有黑灰产和羊毛党的后顾之忧。

•核保风控：在极致耗时要求下，以异步方式应用模型识别结果，预防风险发生。

•理赔风控：建设实时大模型理解与预测能力，对已知风险评级，及时阻断风险。

•追偿风控：依托跨时空数据，通过大模型归纳能力发现未知风险，主动追偿。

•全流程自主风控：实现全流程自主高效的风控，通过各环节协同达成风控闭环治理。

保险业务流程：

2. AI驱动的全链路风控应该怎么做？

当前业务背景及痛点：

保险业务复杂，链路多、周期长：保险业务复杂，各险种业务模式差别较大，整体链路和周期长：包括产品定价、签约、核保、承保、理赔等主要环节。

业务发展迅速，欺诈风险持续存在：保险业务整体发展迅速，像延保、30180等业务规模不断扩展下，也给黑灰产、羊毛党可乘之机，其业务中存在相关欺诈风险，风控侧亟需治理。

黑产变形持续对抗：随着风控侧和黑灰产的对抗，像运费险、晚到赔等业务下，黑灰产攻击手段持续升级，呈现出技术专业化、行为隐蔽化、攻击规模化的特点，风控侧须持续迭代模型，以抵御黑产攻击，保障业务健康。

2.1 核保风控：在极致耗时要求下，以异步方式应用模型识别结果，预防风险发生。

特点：核保风控环节流量大（核心险种QPS超1000）、耗时要求严苛（响应需≤20ms），无法直接应用模型实时预测风险。

思路：采用 “预计算+实时调用” 模式，先通过模型提前完成风险识别与判断，将结果转化为标准化标签；核保流程中直接调用预生成标签进行决策，既充分发挥模型的风险识别能力，又满足时效要求，实现风险提前预判。

打法一：通过数据分析挖掘，构建核保环节特征体系，以规则布控预防风险。

针对已知、明确、高确定性的风险模式，依托完善的核保特征体系，使用实时规则进行拦截，做到高效精准。

打法二：结合策略命中及无监督模型挖掘的风险，通过关联分析形成风险名单库。

通过关联分析发现个体背后隐匿的群体性风险和关联风险，将分散的风险点串联成网，形成动态共享的风险名单库。即使黑产更换了身份证、账号，只要使用了相同的IP、设备或联系方式，依然能被迅速识别出来。

2.2 理赔风控：建设实时大模型理解与预测能力，对已知风险评级，及时阻断风险。

特点：该环节是保险风控的重中之重，直接决定业务利润空间的大小，对于欺诈理赔请求，直接进行风险拦截可转化为成本节约。相较于核保风控环节，该阶段对耗时的要求稍有放缓，允许我们通过实时模型进行风险决策，并且能够使用比较复杂的模型进行实时识别和风险阻断。

思路：

•兼顾和黑产对抗的灵活高效，同时考虑和黑产对抗的鲁棒性和泛化性，采用规则+小模型+大模型的三路并跑的方式进行实时风控治理。

治理阶段：

打法一：规则风控，结合多维度的风险表现，构建完善的特征体系，通过灵活高效的规则布控快速拦截风险。

规则风控主要基于明确的风险表现，将 “风险判定逻辑” 转化为可执行的条件，直接使用规则结果进行拦截，并根据黑产的变化可以灵活快速调整，规则风控承担着 “第一道防线” 的关键角色，主要特点是 “看得见、可解释、易调整”。通过构建完善的风控特征体系，可以覆盖保险业务的风险表现，基于规则引擎进行规则策略的快速布控。不同规则的布控，需结合业务特点和黑灰产的风险表现。详情如下

打法二：小模型风控，利用小模型的成本优势，可以保障风控效果，提高泛化。

当各业务的风控规则积累到一定厚度后，有一定量级的标签和特征数据，可以针对特定场景和风险进行轻量级模型的构建，提高风险对抗的鲁棒性，并进一步增强风险识别的泛化能力。根据模型的作用不同，小模型风控主要包括功能型和决策型两类：

•功能型模型：着重对某一个功能的事实性判断，可以在不同业务场景进行快速复用；

•决策型模型：可以替代原有的规则引擎，直接进行决策，着重对具体业务和问题进行风险判断。

打法三：大模型风控，基于大模型的通用世界知识及强大的学习理解能力，通过多维度数据融合进行风险决策。

基于小模型进行实时决策，依赖特征工程，在保险业务风控中，通过大模型决策，可整合多维度数据（请求数据、统计特征、行为序列、用户画像等），具备更强的泛化与决策能力，并且仅需少量级的标注数据就可以取得不错的效果。

通过大模型进行实时风险决策，主要思路从欺诈行为的本质出发，捕捉违反业务逻辑（物流时间异常、物流无轨迹）、用户行为异常 （高频理赔、切换设备）、团伙关联 （BC联合、共用设备/IP）、虚假交易 （虚假地址、虚假发货、伪造物流单）以及后续新型欺诈等多类风险信号，可以通过如下阶段：