微信扫码
添加专属顾问
电商定价迎来AI革命!大模型如何智能优化价格策略,提升决策精准度? 核心内容: 1. 电商定价面临的三大核心挑战与解决思路 2. 基于大语言模型的RAG架构定价方案设计 3. 过程奖励与树搜索机制提升模型推理效果
在 InfoQ 举办的 QCon 全球软件开发大会上,本文作者进行了“因果推断与大模型融合:电商定价策略的变革实践”专题演讲。阐述了如何应用大模型方法应对电商定价挑战,优化商品定价策略,提升决策的科学性与精准度。期待与大家讨论交流、相互学习。
随着电商的快速发展和价格透明度的不断提升,消费者在购物前往往会货比三家,挑选自己最满意的商品。为此,我们设计了一套模仿消费者购物行为的算法,基于相似品价格,为给定商品生成合理的价格建议。具体流程分为以下三步:
1.输入待核算价格商品描述;
2.从数据库中提取与该商品相似的商品及其价格;
3.根据相似商品给出价格建议,同时输出推导逻辑。
目前,该能力已应用于自营新品价格审核:每天都有大量新品上架,其定价由供应商提报,采销部门负责审核。由于商品数量庞大,审核成本高昂,接入该能力后,可显著提升人工审核效率。
在建模过程中我们主要遇到如下难点:
1.覆盖全品类:需覆盖数百个品类,而不同品类的比价逻辑存在较大差异,例如某些需要进行单位价格转换,某些则需考虑材质差异对价格的影响。
2.商品信息复杂:商家常采用赠品、套装、专供型号等方式增加比价难度,增加了模型判断难度。
3.可解释性:比价过程中需详细阐述价格推导逻辑,明确参考了哪些相似商品及原因。
针对上述 3 个难点,大语言模型提供了解决问题的新思路:
其具备丰富领域知识,能够处理不同品类的比价逻辑;
能较好地理解复杂商品信息;
相较于传统机器学习模型,大语言模型不仅能给出价格预测,还能提供解释说明。
应用 RAG(Retrieval-Augmented Generation)架构,设计的定价流程如下:
说明:
1.检索器:从商品池中基于文本相似度和 embeding 召回与目标商品最相似的竞品,并将其作为生成模型的 prompt 输入
2.生成器:使用推理模型基于相似品价格推导出主商品价格,提升定价的准确性与可解释性。
3.强化学习奖励设计:从三方面构建 reward:
定价误差:模型定价与实际成交价的偏差尽量小。
相似品之间价差幅度:相似商品间价格差异尽量小。
属性提取:商品属性与规格识别的准确度。
在推理模型训练过程中,链式思维(Chain-of-Thought,CoT)无法依赖人工标注,须由模型自动生成。此时,单纯“探索”会带来过多低质量尝试,单纯“利用”又容易陷入已有思路的局限。通过过程奖励与树搜索机制的协同作用,我们既让模型探索新的推理路径,又有效利用已学知识,显著提升了推理正确率和训练效率。
过程奖励与树搜索实现方式
在计算价格环节,我们会将待定价商品的描述与相似品的描述及价格构造成 prompt,并通过 LLM 生成预估价格。整个 CoT 过程分为以下 3 步:
•step 1:将单位价格进行转换,目标是通过单位价格的转换来缩小相似品之间的价差。使用相似品之间价格的变异系数来计算奖励(reward)。
•step 2:对价格进行排序,将价格计算简化为对不同商品价格高低的比较。奖励(reward)取决于模型排序结果与实际排序之间的差异。
•step 3:计算最终价格,给出最终报价。奖励(reward)依据预估价格与实际价格之间的差异来确定。
step 1:计算单位价格好的,先将所有参考商品的总价统一折算到“元/斤”:...{"unit": "斤","unit_count": {"B7": 150, "B1": 500, ...}}step 2:计算排序我现在需要处理用户的问题,帮助他们将商品A插入到集合C中,并确保单位价格从高到低排序。首先,我得仔细阅读用户提供的任务要求和输入信息,确保自己理解正确。...{"order": ["B7", "B1", ...]}step 3:计算价格假设A的单位价格预估为0.0450元/克,那么它应该插入在B4(0.04453)之后,B6(0.03993)之前。...{"price": 0.04}在预训练阶段,由于 CoT 是通过特定构造方式生成的,我们首先通过设计提示词来生成一批严格遵循 CoT 模板结构的样本。随后,我们使用 SFT 对基座模型进行预训练,确保模型输出的 CoT 格式符合预期要求,同时提升三步推理中每步的合理性与准确性。
强化学习
由于本方法的步骤固定且层数较少,我们采用 BFS 策略进行 CoT 样本的扩展和收集。在每一步推理中,模型会生成多个候选解,通过过程奖励选取当前阶段中质量较高、潜在价值较大的候选保留,并将其作为下一阶段的扩展起点。这样可以高效收集到更多符合预期且接近最终价格的 CoT 样本,提升整个训练过程的效率和质量。
在强化学习的优化阶段,我们采用了 PPO 算法,并对 reward 环节进行了调整。传统 PPO 算法中的 reward 是通过蒙特卡洛回报计算:
该方法未引入过程奖励,导致 CoT 推理初期可能包含非常关键的 token,但由于等比例衰减,初期 reward 信号会非常弱。
而在我们的优化中,引入了过程奖励设计:我们在每一步中设置过程奖励,同时考虑后续步骤的奖励并将其累积到前面的步骤中,从而确保初期关键 token 也能获得合理的 reward。例如:
•step1 在其第 k个 token 处拿到来自 step2 的αkr2与来自 step3 的βk+tr3。
•step2 在其第 t个 token 处拿到来自 step3 的βtr3。
•step3 只拿自己的 r3。
最终的奖励计算公式为:
准确性:之前的线上的传统深度学习模型是针对文具、办公用品等少数品类进行定制化开发的,包含了大量专门设计的特征,因此难以扩展到全品类,对从常见三级类目中随机抽取一定量商品进行测试,整体准确率仅为 44%。采用本文方法定价后,整体准确率提升至 74%。
速度:如果使用提示词工程和高质量推理模型可以实现类似效果,但推理速度通常需要 10 分钟以上,并且由于 CoT 推理经常陷入死循环,必须进行额外处理。而我们采用 7B 开源模型作为基座进行训练,最终训练得到的模型可以在单卡上进行推理,整体流程可在数秒内完成。
目前,相似商品召回与 LLM 的训练是分离进行的。因此,模型无法根据最终定价结果判断召回阶段哪些样本是正例或负例,也难以将“探索–利用”思路扩展到相似商品的召回环节。
引入对抗学习优化样本选择
目前主商品的选取主要依赖经验规则,例如从表现较差的类目中随机抽取商品。若采用对抗学习,模型可以在候选商品池中自动挑选主商品,对表现欠佳的部分进行重点训练,并将“探索–利用”策略贯穿整个流程,从而提升召回质量和整体定价效果。言模型在电商定价中的实践
DeepSeek-AI, Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., … Cobbe, K. (2025). DeepSeek-R1: Incentivizing reasoning capability in large language models via reinforcement learning. arXiv preprint arXiv:2501.12948.
链接:https://arxiv.org/pdf/2501.12948?
在 DeepSeek-R1 开发早期,尝试了过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS)两种方法来提升推理能力,但未能取得理想效果。PRM 遇到三个问题:一是难以为各种推理问题定义一种通用的切分步骤方法;二是难以准确判断中间步骤的正确性;三是容易出现过程奖励滥用(hacking)。MCTS 的问题则在于:问题的潜在解答种类繁多,导致搜索维度呈爆炸式增长;训练一个既能对中间步骤有效、又较为准确的价值函数非常困难,同时很难通过强化学习提升价值函数的准确性。
Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., van den Driessche, G., … Hassabis, D. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484–489.
链接:https://www.academia.edu/74582983/Mastering_the_game_of_Go_with_deep_neural_networks_and_tree_search
首先,AlphaGo 利用约 3000 万条人类专家对局数据,对策略网络π进行监督学习,得到初始模型,其中策略网络的监督学习损失为
在自对弈阶段,对于每个局面 st,算法在当前搜索树中一次只扩展一个新子节点,所选动作由节点的价值估计 Q(st,a)和策略先验 P(st,a)共同决定:
扩展后,从该新节点模拟直至终局,统计胜负信号 z∈{+1,−1}作为 reward,结合价值网络在新子节点估值得到 Q 值,也在回传阶段更新整棵树中经过节点的 Q 值:
当一局对弈结束后,收集所有{(st,at,z)}迭代价值网络和策略网络。策略网络目标函数与学习人工棋谱一致。价值网络目标函数为:
Zhang, D., Zhoubian, S., Hu, Z., Yue, Y., Dong, Y., & Tang, J. (2024). ReST-MCTS: LLM self-training via process reward guided tree search. arXiv preprint arXiv:2406.03816.
链接:https://proceedings.neurips.cc/paper_files/paper/2024/file/76ec4dc30e9faaf0e4b6093eaa377218-Paper-Conference.pdf
每步切分方法:整条 CoT 推理按句子级切分,每一句话视为一个独立的推理步骤 sk。
预训练:
策略网络:收集高性能模型生成的高质量 CoT 路径{(Q,s1:K)},对策略网络π做监督微调:
价值网络:以整条路径为单位,用正负路径对做偏好学习(DPO)初始化过程奖励模型 rϕ:
MCTS 搜索流程:
Selection & Expansion:在当前节点 p(前缀)上,先用策略网络生成 top-K 候选动作{ai},再按 PUCT 公式选出最佳扩展:
Evaluation (一次 Rollout):从新叶子 p′开始,进行贪心模拟。1)每步生成 top-K 候选句子{sk+1(i)}。2)用价值模型打分,取最高分分支继续,直到终局。3)最终记录该模拟返回路径上价值模型打分的最大价值。
Backup:将叶子估值沿路径回传,这块比较复杂考虑了深度惩罚、价值函数、父节点的 rollout 值。
RL 模型训练:
策略网络更新:执行多轮 MCTS,筛选最终答案正确的完整轨迹{(Q,s1:K)}用于 SFT 更新策略模型。方法与预训练一致。
价值网络更新:执行多轮 MCTS,收集所有结果正确和错误的路径。对路径上每个步骤做进行多次(比如数百次)rollout,然后统计答案正确的比例 rk。获得{pk,rϕ(pk)}用于微调价值模型。
Zhang, X., Du, C., Pang, T., Liu, Q., Gao, W., & Lin, M. (2024). Chain of Preference Optimization: Improving Chain-of-Thought reasoning in LLMs. arXiv preprint arXiv:2406.09136.
链接:https://proceedings.neurips.cc/paper_files/paper/2024/file/00d80722b756de0166523a87805dd00f-Paper-Conference.pdf
每步切分方法:CPO 将整条 CoT 推理按“Step k:” 前缀自动切分,每当模型在生成时遇到字符串 "Step k:" 就视为一步结束并停止该步的生成,下一步从新的前缀继续。
状态评估器:本文章有没单独训练价值网络,而是用一个 LLM+提示词实现了每步的打分。
始终用 BFS 构建思路树:每一层对所有活跃前缀同时扩展 top-K 候选,再保留评估器打分最高的 B 条进入下一层,直到达到终局。这一步贯穿了策略预训练和偏好数据收集两个阶段。
预训练:先把 BFS 搜索出的最优完整路径当作“专家示例”做一次 SFT:
偏好对收集 & DPO 微调:在同一棵 BFS 树里,对每个父前缀 p。选出下一步中被保留的那个 sk+以及剩下作为负样本的 sk−。用 DPO 同时利用好坏样本来微调策略网络:
Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., Leike, J., Schulman, J., Sutskever, I., & Cobbe, K. (2023). Let’s verify step by step. arXiv preprint arXiv:2305.20050.
OpenAI 在“过程奖励建模”(Process Reward Modeling, PRM)方向上的最新成果。
核心动机:传统的 Chain-of-Thought(CoT)训练主要依赖对最终答案的“结果监督”(Outcome Supervision),无法对每一步推理提供细粒度反馈;而本工作通过对推理过程中每一步的“有助/无助”人工标注,验证了过程监督在提升多步推理可靠性上的巨大潜力。
PRM800K 数据集:团队首先用大规模 LLM 自动生成多条 CoT 解法,然后请标注员对每道题的每一步(以换行为单位)打“是否有助于最终正确”的标签,并将所有“前缀 → 标签”平铺成一个约 80 万条样本的公开数据集 PRM800K。
方法与效果:在 PRM800K 上监督微调得到的过程奖励模型(PRM),可以对任意中间前缀输出“从这里出发最终正确的概率”。监督微调的目标函数(以二分类交叉熵形式):
其中 p 是一个前缀,r∈[0,1]是对应的软标签,rϕ(p)是模型预测的“从这里出发最终正确概率”。
推理时,对生成的多条 CoT 解法,按每步评分再累积排序(Best-of-N),显著减少逻辑漏洞。对多条 CoT 解法进行 Best-of-N 排序时,给每条完整路径的最终评分定义为其各步正确概率的乘积:
其中 pk=(s1,…,sk)是到第 k 步的前缀,保留得分最高的解法输出。
在 MATH 题库代表性子集上,PRM 驱动的搜索后输出准确率达 78.2%,相比只用结果监督的模型提升明显。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-30
解析Agent Loop(智能体循环)的三层分级体系
2026-06-30
Cursor、OpenClaw 同时出手,“口袋编程”时代来了:程序员只用“动嘴”!
2026-06-30
从文本到多模态:大模型非结构化数据加工与质量控制实践
2026-06-30
从Anthropic的B端战略,给迷茫中的扣子一些建议
2026-06-30
Claude最新:创始人实操手册:打造 AI 原生初创公司(中文版)
2026-06-30
本体+AI驱动的AI智能体工厂-从设计到实现
2026-06-30
微信AI,能避开豆包手机的窘境吗?
2026-06-30
LangAlpha是如何在架构上实现Harness 和 Loop Engineering
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-02
2026-04-05
2026-04-14
2026-04-24
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。