微信扫码
添加专属顾问
我要投稿
快手自研UniDex与UniSearch技术突破,让搜索从关键词匹配进化到真正"懂你"的智能时代。 核心内容: 1. 传统搜索系统面临的三大痛点:语义理解不足、时效性差、资源消耗高 2. UniDex技术创新:统一语义倒排方案提升25%响应速度 3. UniSearch突破:全球首个端到端生成式搜索架构创造直播场景新纪录
论文链接:https://arxiv.org/pdf/2509.24632
业界倒排系统通常由两个核心模块组成:召回(Touch)模块和排序(Rank)模块。Touch 模块基于倒排索引进行 Term 级检索获取候选集,Rank模块计算Query-候选集打分。传统倒排召回包含多路人工Touch方法(同义词扩展、Term省略、实体归一等),以及数十种策略/模型特征等启发式规则的 Rank 方法。UniDex 通过提出 UniTouch 和 UniRank,分别统一了传统倒排的Touch和Rank模块,避免了繁复的人工设计。在保障相关性和长尾需求的情况下,大幅节省链路资源消耗,为搜索体验带来增益。
UniDex完整架构流程图如下:
1.FSQ量化:以 Query 为例,Query 侧拼接多组可学习的 Token,经过 Encoder 编码产出多组稠密向量,经过 FSQ 量化为离线语义 ID。
和,通过可学习的线性投影矩阵降维后经过 FSQ 分别离线化为 K 值维的 SID (K值经验地设置为2):
通过另一组升维的投影映射得到
重构后的能够更高效地将 SID 训练融入下游任务目标,同时保证表征的连续性与训练过程的稳定性。
3.Token-Matching 机制:构建 Token-Matching 模块驱动模型强化训练/检索一致性。
图 5 UniTouch Token-Matching 示意图
Token-Matching 打分计算如下:
其中是分桶且动态学习的温度系数,表示负例的集合。
2.Matching Loss:引入针对高档位相关正例的 Matching 损失目标,强化模型使 Query 与高相关视频产出相同 SID 的能力。
其中,表示高档位正样本。
3.Quantization Regularization:引入量化正则项,以缓解 TensorRT 推理加速带来的浮点精度(Float)损失,二进制量化正则损失(Binary-Quant RegLoss)定义如下:
在UniDex的新索引检索范式下,引入UniRank重构排序机制,释放语义检索潜力。
1.UniRank框架
UniRank 采用与 UniTouch 相似的双塔架构设计。二者的核心差异在于:UniRank 以提升语义匹配准确度为核心目标,将 Query 与视频的语义信息分别编码为多个 128 维稠密向量(Dense Vector),并执行 Token-level 细粒度交互。
图 6 UniRank模型示意图
2.Token-level Interaction
通过拼接多组可学习 CLS 头,实现 Token-level 延迟交互,进而完成 Query 与视频的细粒度语义交互:
图 7 UniRank Token-level交互示意图
Token-level Interaction 驱动 Query 侧所有语义 Token 向量均参与最终排序得分的决策过程,强化模型的表征能力:
(二)学习策略
1.Pointwise Relevance Loss:蒸馏精排模型的相关性得分,提升模型的相关性判别准确度。
2.InfoNCE Loss:同UniTouch的对比损失,学习搜索链路序,提升排序能力。
图 8 UniDex实时检索流程
论文链接:https://arxiv.org/pdf/2509.06887
与以往依赖多阶段模型的级联系统不同,UniSearch 采用统一架构,在同一框架内完成端到端训练与推理,消除各阶段目标之间的不一致性,降低系统复杂度。
图 10 级联链路(MCA)& 现有生成式系统架构 & 统一生成式搜索 UniSearch 对比
先前的生成式搜推模型(如 OneRec)采用两阶段训练,item离散化表示和item生成任务,这会导致两阶段目标不一致。为此,设计了“真端到端”的训练架构 UniSearch,将 Search Generator 和 Video Encoder 统一到一个训练框架。
Search Generator 采用 “Encoder-Decoder” 架构,输入为搜索词、用户特征序列等。使用 <cls> 来表征 query 侧整体语义向量。Decoder 侧自回归地预测出视频的语义 ID。
Video Encoder,为每个视频学习潜在 embedding 表示和语义 ID。Encoder 的输入为视频侧特征,输出为Learnable Token对应的语义序列表征。同时Video Encoder有一个用于离散化的 VQ Codebook,用于将连续的Embedding 转化为语义ID。
通过联训 Search Generator 和 Video Encoder,UniSearch 能够缓解 item 生成和 item 表征之间的鸿沟,实现整个生成搜索框架的统一与连贯性。
1.残差对比语义学习
UniSearch 将传统生成式工作中的采用类似于 RQ-Kmeans 的残差聚类过程,建模到了语义学习的过程中:与采用两阶段残差聚类的残差量化方法(如 RQ-Kmeans)相比,该方法实现了端到端的训练,避免了由分步训练带来的目标不一致问题。
公式中 sg(·) 代表梯度截断。
2.渐进式粗到细建模目标
query-video 残差对比学习的建模目标模拟了级联链路由“召回->粗排->精排”的漏斗结构,构建了一种层次化的语义刻画模式。具体来说 学习类召回的分档逻辑, 学习类粗排的分档逻辑,..., 学习更精细化的精排分档逻辑。
3.码本离散化学习
与依赖后聚类方法的工作不同,UniSearch 采用 VQ-VAE 方法,在训练过程中联合更新码本(codebook)。对于每个语义向量,VQ-VAE 编码器在可学习的码本中执行最近邻查找,获得量化后的 及其对应的语义 ,同时让量化向量和原语义向量 相互逼近。码本损失如下:
同时,引入了 SimVQ 策略,即在量化层之后增加一个线性层协同优化,避免了码本坍塌问题。这样,借助 VQ 模块,视频可以以完全端到端的方式被离散化为语义 ID,从而避免了离线聚类所带来的不一致性问题。
图 12 生成式训练
生成约束较为常规,在这里额外采用了一种拒绝采样的训练策略,即根据标签判断出的低质量样本会被过滤掉,并且针对不同质量等级的样本,会相应地对其损失进行加权。
为不同档位的样本的权重。UniSearch 整体的训练目标为上述各个分量的加和,实现了 query-video 语义对齐、视频离散化以及生成的联合优化。
图 13 奖励系统与 SPO
在离线训练结束后,UniSearch 线上模型通过接收当前搜索系统对生成结果的评估以及用户的真实反馈,将学习搜索偏好下的生成模式。据此,整个Reward系统包括 2 部分:(1)线上精排奖励;(2)用户行为反馈奖励。
类似于 GRPO,UniSearch 应用了搜索业务感知的强化学习优化 Search Preference Optimization (SPO) 来进一步提升生成性能。
直播搜索具有明显的时效性特性,在不同时刻,直播间的表征会发生剧变,这就需要对直播码本进行监听与实时更新。
图 14 UniSearch 在直播搜索的实时链路应用
UniSearch 链路主要由 3 部分构成:
1. 生成模型:采用上文所述的“encoder-decoder”架构的模型,实时接受 Query 和上下文输入,产出码本概率分布;
2. 动态 Trie 树构建与搜索:首先构建码本生产服务,以 1 min 的时间窗口来更新直播间表征,实时生产直播间 id 映射到最新码本的数据流;动态 Trie 树模块实时监听数据流,更新当前有效直播间的码本路径;生成模型产出的码本概率分布,在动态 Trie 树上进行beamsearch搜索,保证了生成结果的合法性。
3. Reward System:实时地对生成模型的产出进行奖励,用于指导模型的在线训练。
3.2.1 离线结果
UniSearch 在离线评估中始终优于各项基线方法。在相同模型规模下,UniSearch-6 Layer 在 MRR 指标上超越其他 6 层基线,并在 Recall@300 上达到了接近 12 层基线的性能。这表明统一的训练目标不仅提升了生成结果的相关性,也显著改善了整体生成质量。
3.2.2 在线实验
将 UniSearch 部署至在线直播搜索链路后,多项指标取得了显著收益。其中直播进间次数 +3.31% 为近两年来的最高提升。直播搜索的换Query率 -0.382% 也取得了明显降低,标志了直播搜索质量的有效提升。
图 15 分视角下探分析
对进间次数进行下探,发现新用户贡献了 58.73% 的提升,占总增量一半以上。这表明 UniSearch 返回的结果对新用户吸引力更高,具有明显的拉新潜力。
- END -
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-15
治理之智 | 从零和博弈走向长期合作:人工智能版权问题分析与思考
2025-12-15
AgentScope x RocketMQ:打造企业级高可靠 A2A 智能体通信基座
2025-12-15
200k Tokens 的上下文真的够用吗?
2025-12-15
专家知识 x 技术放大:我在B端智能体落地一线的万字真实复盘
2025-12-15
字节AI神操作:AI生成接口自动化测试用例,效率拉满
2025-12-15
解析 Goose:为什么它会进入 AAIF,以及这对 Agentic Runtime 意味着什么
2025-12-15
Palantir的“本体论”:数字世界的底层革命
2025-12-15
Claude Skills|将 Agent 变为领域专家
2025-09-19
2025-10-26
2025-10-02
2025-09-17
2025-09-29
2025-10-07
2025-09-30
2025-11-19
2025-10-20
2025-11-13