微信扫码
添加专属顾问
我要投稿
目录
一、模型整体结构
二、1.1 Input Layer
三、1.2 PI Layer
四、1.3 Gated Attention Layer
五、Output Layer
六、损失函数
推荐阅读⭐️⭐️⭐️⭐️⭐️
《Scope-aware Re-ranking with Gated Attention in Feed》
这篇文章是蚂蚁公开的一种信息流商品重排序的方法。建模时考虑了用户在信息流商品推荐场景下的浏览行为,总结出两种行为特征:
现有的重排序模型大都忽略了这两种行为特征,本文提出的建模思路:
模型的第一部分输入为用户侧特征,经过一个前馈神经网络层得到用户侧特征向量:。
模型的第二部分输入为长度为k的商品列表,每个商品经过前馈神经网络层并与对应的位置特征向量融合后得到商品向量:,其中为第i个商品对应的特征。
这里主要计算用户u对商品i的个性化偏好表示(用户向量和商品向量两两拼接后经过两个前馈神经网络层得到相应的向量表示):
这一部分是文章的重点,主要包含前文提到的以下三点:
其中GSA和LSA采用的是self-attention的结构,只是在计算注意力权重时分别做对应的特殊处理,self-attention结构常见的公式表示:
GSA计算逻辑:
LSA计算逻辑:
Attention(Q,K,V)的计算逻辑用图来表示:
GSA和LSA的基本逻辑可以认为是在计算softmax之前对注意力权重矩阵中的相应位置做对应的特殊处理。
Gate Module的主要作用就是融合GSA和LSA的输出:
最终的输出为用户u对商品i的偏好概率:
模型训练时的损失函数为:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-14
多轮 Agent 场景下,滴滴的 EAGLE-3 训推加速实践
2026-05-06
谁说 Mac 只能写代码?Google 官宣:M 芯片本地微调 Gemma 4 时代开启!
2026-04-20
用 Unsloth 微调 Embedding 模型,让你的 RAG 检索不再答非所问
2026-04-15
ComfyUI v0.19.0 更新:大量新节点、新模型、新修复与性能优化全面落地,工作流与训练能力再升级
2026-04-13
Agent 持续学习落地路径:先做 Traces,再做 Context,最后才微调模型 | Jinqiu Select
2026-03-23
养死四只龙虾的小白有感
2026-03-22
Mistral Forge 的真正意义:企业AI从“租用”走向“拥有”
2026-03-21
马斯克再次站台Kimi,扒掉了Cursor 500亿估值的底裤
2026-03-19
2026-04-15
2026-03-21
2026-03-03
2026-03-23
2026-03-22
2026-03-17
2026-04-13
2026-04-20
2026-05-06
2026-01-02
2025-11-19
2025-09-25
2025-06-20
2025-06-17
2025-05-21
2025-05-17
2025-05-14