大模型如何算出最优价格？电商定价策略的变革实践

发布日期：2025-07-22 06:51:11 浏览次数： 2362

作者：京东零售技术

微信搜一搜，关注“京东零售技术”

在 InfoQ 举办的 QCon 全球软件开发大会上，本文作者进行了“因果推断与大模型融合：电商定价策略的变革实践”专题演讲。阐述了如何应用大模型方法应对电商定价挑战，优化商品定价策略，提升决策的科学性与精准度。期待与大家讨论交流、相互学习。

引言

随着电商的快速发展和价格透明度的不断提升，消费者在购物前往往会货比三家，挑选自己最满意的商品。为此，我们设计了一套模仿消费者购物行为的算法，基于相似品价格，为给定商品生成合理的价格建议。具体流程分为以下三步：

1.输入待核算价格商品描述；

2.从数据库中提取与该商品相似的商品及其价格；

3.根据相似商品给出价格建议，同时输出推导逻辑。

目前，该能力已应用于自营新品价格审核：每天都有大量新品上架，其定价由供应商提报，采销部门负责审核。由于商品数量庞大，审核成本高昂，接入该能力后，可显著提升人工审核效率。

基于大语言模型的建模方法

在建模过程中我们主要遇到如下难点：

1.覆盖全品类：需覆盖数百个品类，而不同品类的比价逻辑存在较大差异，例如某些需要进行单位价格转换，某些则需考虑材质差异对价格的影响。

2.商品信息复杂：商家常采用赠品、套装、专供型号等方式增加比价难度，增加了模型判断难度。

3.可解释性：比价过程中需详细阐述价格推导逻辑，明确参考了哪些相似商品及原因。

针对上述 3 个难点，大语言模型提供了解决问题的新思路：

其具备丰富领域知识，能够处理不同品类的比价逻辑；
能较好地理解复杂商品信息；
相较于传统机器学习模型，大语言模型不仅能给出价格预测，还能提供解释说明。

应用 RAG（Retrieval-Augmented Generation）架构，设计的定价流程如下：

说明：

1.检索器：从商品池中基于文本相似度和 embeding 召回与目标商品最相似的竞品，并将其作为生成模型的 prompt 输入

2.生成器：使用推理模型基于相似品价格推导出主商品价格，提升定价的准确性与可解释性。

3.强化学习奖励设计：从三方面构建 reward：

定价误差：模型定价与实际成交价的偏差尽量小。
相似品之间价差幅度：相似商品间价格差异尽量小。
属性提取：商品属性与规格识别的准确度。

通过过程奖励与树搜索优化模型效果

在推理模型训练过程中，链式思维（Chain-of-Thought，CoT）无法依赖人工标注，须由模型自动生成。此时，单纯“探索”会带来过多低质量尝试，单纯“利用”又容易陷入已有思路的局限。通过过程奖励与树搜索机制的协同作用，我们既让模型探索新的推理路径，又有效利用已学知识，显著提升了推理正确率和训练效率。

过程奖励与树搜索实现方式

在计算价格环节，我们会将待定价商品的描述与相似品的描述及价格构造成 prompt，并通过 LLM 生成预估价格。整个 CoT 过程分为以下 3 步：

•step 1：将单位价格进行转换，目标是通过单位价格的转换来缩小相似品之间的价差。使用相似品之间价格的变异系数来计算奖励（reward）。

•step 2：对价格进行排序，将价格计算简化为对不同商品价格高低的比较。奖励（reward）取决于模型排序结果与实际排序之间的差异。

•step 3：计算最终价格，给出最终报价。奖励（reward）依据预估价格与实际价格之间的差异来确定。

step 1：计算单位价格好的,先将所有参考商品的总价统一折算到“元/斤”：...{"unit": "斤","unit_count": {"B7": 150, "B1": 500, ...}}step 2：计算排序我现在需要处理用户的问题,帮助他们将商品A插入到集合C中,并确保单位价格从高到低排序。首先,我得仔细阅读用户提供的任务要求和输入信息,确保自己理解正确。...{"order": ["B7", "B1", ...]}step 3：计算价格假设A的单位价格预估为0.0450元/克,那么它应该插入在B4(0.04453)之后,B6(0.03993)之前。...{"price": 0.04}

预训练

在预训练阶段，由于 CoT 是通过特定构造方式生成的，我们首先通过设计提示词来生成一批严格遵循 CoT 模板结构的样本。随后，我们使用 SFT 对基座模型进行预训练，确保模型输出的 CoT 格式符合预期要求，同时提升三步推理中每步的合理性与准确性。

强化学习

由于本方法的步骤固定且层数较少，我们采用 BFS 策略进行 CoT 样本的扩展和收集。在每一步推理中，模型会生成多个候选解，通过过程奖励选取当前阶段中质量较高、潜在价值较大的候选保留，并将其作为下一阶段的扩展起点。这样可以高效收集到更多符合预期且接近最终价格的 CoT 样本，提升整个训练过程的效率和质量。

在强化学习的优化阶段，我们采用了 PPO 算法，并对 reward 环节进行了调整。传统 PPO 算法中的 reward 是通过蒙特卡洛回报计算：

该方法未引入过程奖励，导致 CoT 推理初期可能包含非常关键的 token，但由于等比例衰减，初期 reward 信号会非常弱。

而在我们的优化中，引入了过程奖励设计：我们在每一步中设置过程奖励，同时考虑后续步骤的奖励并将其累积到前面的步骤中，从而确保初期关键 token 也能获得合理的 reward。例如：

•step1 在其第 k个 token 处拿到来自 step2 的αkr2与来自 step3 的βk+tr3。

•step2 在其第 t个 token 处拿到来自 step3 的βtr3。

•step3 只拿自己的 r3。

最终的奖励计算公式为：

实验结果

准确性：之前的线上的传统深度学习模型是针对文具、办公用品等少数品类进行定制化开发的，包含了大量专门设计的特征，因此难以扩展到全品类，对从常见三级类目中随机抽取一定量商品进行测试，整体准确率仅为 44%。采用本文方法定价后，整体准确率提升至 74%。

速度：如果使用提示词工程和高质量推理模型可以实现类似效果，但推理速度通常需要 10 分钟以上，并且由于 CoT 推理经常陷入死循环，必须进行额外处理。而我们采用 7B 开源模型作为基座进行训练，最终训练得到的模型可以在单卡上进行推理，整体流程可在数秒内完成。

后续优化

端到端 RAG＋LLM 联合训练

目前，相似商品召回与 LLM 的训练是分离进行的。因此，模型无法根据最终定价结果判断召回阶段哪些样本是正例或负例，也难以将“探索–利用”思路扩展到相似商品的召回环节。

引入对抗学习优化样本选择

目前主商品的选取主要依赖经验规则，例如从表现较差的类目中随机抽取商品。若采用对抗学习，模型可以在候选商品池中自动挑选主商品，对表现欠佳的部分进行重点训练，并将“探索–利用”策略贯穿整个流程，从而提升召回质量和整体定价效果。言模型在电商定价中的实践

相关工作介绍

DeepSeek-AI, Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., … Cobbe, K. (2025). DeepSeek-R1: Incentivizing reasoning capability in large language models via reinforcement learning. arXiv preprint arXiv:2501.12948.

链接：https://arxiv.org/pdf/2501.12948?

在 DeepSeek-R1 开发早期，尝试了过程奖励模型（PRM）和蒙特卡洛树搜索（MCTS）两种方法来提升推理能力，但未能取得理想效果。PRM 遇到三个问题：一是难以为各种推理问题定义一种通用的切分步骤方法；二是难以准确判断中间步骤的正确性；三是容易出现过程奖励滥用（hacking）。MCTS 的问题则在于：问题的潜在解答种类繁多，导致搜索维度呈爆炸式增长；训练一个既能对中间步骤有效、又较为准确的价值函数非常困难，同时很难通过强化学习提升价值函数的准确性。

Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., van den Driessche, G., … Hassabis, D. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484–489.

链接：https://www.academia.edu/74582983/Mastering_the_game_of_Go_with_deep_neural_networks_and_tree_search

首先，AlphaGo 利用约 3000 万条人类专家对局数据，对策略网络π进行监督学习，得到初始模型，其中策略网络的监督学习损失为

在自对弈阶段，对于每个局面 st，算法在当前搜索树中一次只扩展一个新子节点，所选动作由节点的价值估计 Q(st,a)和策略先验 P(st,a)共同决定：

扩展后，从该新节点模拟直至终局，统计胜负信号 z∈{+1,−1}作为 reward，结合价值网络在新子节点估值得到 Q 值，也在回传阶段更新整棵树中经过节点的 Q 值：

当一局对弈结束后，收集所有{(st,at,z)}迭代价值网络和策略网络。策略网络目标函数与学习人工棋谱一致。价值网络目标函数为：

Zhang, D., Zhoubian, S., Hu, Z., Yue, Y., Dong, Y., & Tang, J. (2024). ReST-MCTS: LLM self-training via process reward guided tree search. arXiv preprint arXiv:2406.03816.

链接：https://proceedings.neurips.cc/paper_files/paper/2024/file/76ec4dc30e9faaf0e4b6093eaa377218-Paper-Conference.pdf

每步切分方法：整条 CoT 推理按句子级切分，每一句话视为一个独立的推理步骤 sk。

预训练：

策略网络：收集高性能模型生成的高质量 CoT 路径{(Q,s1:K)}，对策略网络π做监督微调：

价值网络：以整条路径为单位，用正负路径对做偏好学习（DPO）初始化过程奖励模型 rϕ：

MCTS 搜索流程：

Selection & Expansion：在当前节点 p（前缀）上，先用策略网络生成 top-K 候选动作{ai}，再按 PUCT 公式选出最佳扩展：

Evaluation (一次 Rollout)：从新叶子 p′开始，进行贪心模拟。1）每步生成 top-K 候选句子{sk+1(i)}。2）用价值模型打分，取最高分分支继续，直到终局。3）最终记录该模拟返回路径上价值模型打分的最大价值。

Backup：将叶子估值沿路径回传，这块比较复杂考虑了深度惩罚、价值函数、父节点的 rollout 值。

RL 模型训练：

策略网络更新：执行多轮 MCTS，筛选最终答案正确的完整轨迹{(Q,s1:K)}用于 SFT 更新策略模型。方法与预训练一致。

价值网络更新：执行多轮 MCTS，收集所有结果正确和错误的路径。对路径上每个步骤做进行多次（比如数百次）rollout，然后统计答案正确的比例 rk。获得{pk,rϕ(pk)}用于微调价值模型。

Zhang, X., Du, C., Pang, T., Liu, Q., Gao, W., & Lin, M. (2024). Chain of Preference Optimization: Improving Chain-of-Thought reasoning in LLMs. arXiv preprint arXiv:2406.09136.

链接：https://proceedings.neurips.cc/paper_files/paper/2024/file/00d80722b756de0166523a87805dd00f-Paper-Conference.pdf

每步切分方法：CPO 将整条 CoT 推理按“Step k:” 前缀自动切分，每当模型在生成时遇到字符串 "Step k:" 就视为一步结束并停止该步的生成，下一步从新的前缀继续。

状态评估器：本文章有没单独训练价值网络，而是用一个 LLM+提示词实现了每步的打分。

始终用 BFS 构建思路树：每一层对所有活跃前缀同时扩展 top-K 候选，再保留评估器打分最高的 B 条进入下一层，直到达到终局。这一步贯穿了策略预训练和偏好数据收集两个阶段。

预训练：先把 BFS 搜索出的最优完整路径当作“专家示例”做一次 SFT：

偏好对收集 & DPO 微调：在同一棵 BFS 树里，对每个父前缀 p。选出下一步中被保留的那个 sk+以及剩下作为负样本的 sk−。用 DPO 同时利用好坏样本来微调策略网络：

Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., Leike, J., Schulman, J., Sutskever, I., & Cobbe, K. (2023). Let’s verify step by step. arXiv preprint arXiv:2305.20050.

OpenAI 在“过程奖励建模”（Process Reward Modeling, PRM）方向上的最新成果。

核心动机：传统的 Chain-of-Thought（CoT）训练主要依赖对最终答案的“结果监督”（Outcome Supervision），无法对每一步推理提供细粒度反馈；而本工作通过对推理过程中每一步的“有助/无助”人工标注，验证了过程监督在提升多步推理可靠性上的巨大潜力。

PRM800K 数据集：团队首先用大规模 LLM 自动生成多条 CoT 解法，然后请标注员对每道题的每一步（以换行为单位）打“是否有助于最终正确”的标签，并将所有“前缀 → 标签”平铺成一个约 80 万条样本的公开数据集 PRM800K。

方法与效果：在 PRM800K 上监督微调得到的过程奖励模型（PRM），可以对任意中间前缀输出“从这里出发最终正确的概率”。监督微调的目标函数（以二分类交叉熵形式）：

其中 p 是一个前缀，r∈[0,1]是对应的软标签，rϕ(p)是模型预测的“从这里出发最终正确概率”。

推理时，对生成的多条 CoT 解法，按每步评分再累积排序（Best-of-N），显著减少逻辑漏洞。对多条 CoT 解法进行 Best-of-N 排序时，给每条完整路径的最终评分定义为其各步正确概率的乘积：

其中 pk=(s1,…,sk)是到第 k 步的前缀，保留得分最高的解法输出。

在 MATH 题库代表性子集上，PRM 驱动的搜索后输出准确率达 78.2%，相比只用结果监督的模型提升明显。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业