微信扫码
添加专属顾问
掌握AI量化模型在金融数据非平稳性下的应对策略。 核心内容: 1. AI模型面临的数据漂移挑战及其重要性 2. 针对数据漂移的三个主要应对视角:数据分布、模型结构、训练模式 3. 基于改进因子构建指数增强组合的效果测试与业绩表现
01 导读
“凡益之道,与时偕行” —— 《易经》
02 AI模型如何应对数据漂移?
股票收益率预测问题面临的核心挑战之一为股票市场的非平稳性。股票特征与预期收益率之间的关联具有时变特性,即股票市场的统计规律易受到市场风格切换、投资者风险偏好、经济周期波动、货币政策调整、监管规则变更等多重因素影响。而传统AI量化模型多假设数据符合独立同分布,基于历史数据静态建模,在市场状态切换时容易失效。
AI量化模型如何适应市场状态?该问题其实可以拆解为两个部分:
1、时序预测任务中,AI模型如何应对数据漂移?
2、如何将这些方法应用于股票收益预测任务以提升AI量化模型表现?
以上话题是学术界的研究热点,本节中对近年来相关研究进行综述。
在时序预测领域,数据的时序分布偏移(Temporal Distribution Shift)和概念漂移(Concept Drift)是影响模型预测准确性的关键因素。两者从不同角度描述了时序数据的非平稳性,其中时序分布偏移特指过去训练数据与未来测试数据之间分布的不一致,也称为“协变量漂移”或“特征漂移”;概念漂移特指输入特征与预测目标之间基础关系随时间的改变。两种漂移现象都会对模型预测造成影响,导致模型预测精度下降,产生误导性结果和决策。
针对数据漂移的问题,学术界提出了多种应对方法,从改进视角出发主要可归纳为数据分布、模型结构、训练模式三个维度。
本节对近年来AI顶级会议及期刊中的相关研究进行汇总综述,文献列表如下。
Kim等(2021)提出了一种可逆时序标准化方法RevIN(Reversible Instance Normalization),对输入时间序列进行可学习的标准化变换,将非平稳时间序列转化为符合标准分布的时序特征进行训练,对模型预测目标时序分布再进行逆标准化还原原始数据中的时变信息。
Liu等(2022)在Transformer模块的基础上改进得到了非平稳Transformer。该模型框架同样采用可逆平稳化的方式处理输入输出时间序列,但在模型结构中将Transformer中的注意力机制改进为去平稳化的注意力机制(De-stationary Attention),将非平稳时间序列信息注入神经网络中。
Fan等(2023)提出了一个名为Dish-TS(Distribution shift in Time Series)的通用时序分布自适应调整框架,利用任意形式的系数网络(CONET)捕捉回望窗口和预测窗口时序数据的水平(level)和尺度(scale)特征,在模型训练和推理阶段缓解回望窗口内的数据漂移以及回望窗口与预测窗口间数据漂移现象。
模型结构
第二种应对方法从模型结构出发,重点在于让模型能学习和预测数据分布的变化,从而适应非平稳的时间序列。其中,Du等(2021)提出了一种网络结构AdaRNN,将迁移学习和循环神经网络相结合。其核心思路分为两步,第一步通过时序相似性量化模块TDC(Temporal Distribution Characterization)将历史时间序列分成分布差异最大的多个小段;第二步通过时序分布匹配模块TDM(Temporal Distribution Matching)基于这些不同分布的序列,让模型学习共性信息,从而在预测有分布变化的数据时,能够更好地根据共性信息实现泛化。
微软亚研院的Li等(2022)提出了DDG-DA模型,该模型认为导致数据分布漂移的某些因素是可预测的,因此其设计了一个预测器用于预测数据未来可能发生的漂移,并根据预测数据分布对训练数据进行重采样生成新的数据集,再基于新数据集进行预测,从而减小训练数据和预测数据间的分布偏差,提升模型表现。
与AdaRNN思路类似,Lu等(2022)提出了一种基于对抗学习的域外表示学习框架DIVERSIFY,该框架优化目标是一个Min-Max问题,一方面让模型自动学习如何将时间序列切分属于多个域的片段,最大化各个域片段的分布差异;另一方面,学习域无关的共性表征,最小化模型在不同域中的预测误差。
哈佛大学的He等(2023)提出了RAINCOAT(fRequency augmented AlIgN-then-Correct for dOmain Adaptation for Time series)模型,对训练域和预测域时间序列数据分布的时域和频域特征进行建模,通过对齐、修正和推理三个阶段实现域自适应。
Wang等(2023)针对多变量时序异常检测场景下的数据漂移问题,提出了D³R(Dynamic Decomposition with Diffusion Reconstruction)模型,包含动态分解和扩散重构两个模块。其中动态分解模块针对时序数据漂移现象构建了时序数据-时间戳混合注意力机制,并在训练过程中加入漂移项噪声以增强模型的鲁棒性。
Chen等(2024)提出了一个数据漂移检测和自适应框架,主要包括了Reconditionor(Residual-based context-driven distribution shift detector)和SOLID(Sample-level cOntextuaLIzed aDapter)两个模块,其中Reconditionor模块用于评估预测残差与数据分布之间的互信息,以衡量模型对分布漂移的敏感度,当探测到严重偏移时,SOLID模块则会利用有限步数对模型的预测层进行微调,从而实现最优的偏差方差平衡。
训练模式
Zhang等(2023)设计了一种双流在线模型集成框架OneNet(Online Ensembling Network),该框架并行维护两个互补的预测模型分别对时序数据的时间维度、变量维度进行建模,同时引入强化学习模块,结合长期权重更新与短期历史反馈,在线调整模型集成权重。
Zhao等(2023)提出了一个元学习框架DoubleAdapt,包含两个基学习器:数据适应模块和模型适应模块。其中数据适应模块的作用类似第一种改进视角,即对数据分布进行动态调整,模型适应模块基于调整后数据优化模型预测准确性;而元学习器的目标即通过多个训练任务优化该两个基学习器的超参数,提升模型在线推理时对新数据分布的适应能力。
Zhao和Shen(2024)提出了一种具有主动适应能力的在线学习框架PROCEED,该框架通过一组编码器捕捉近期训练数据与测试数据间的概念漂移,并将其映射至模型权重之上,从而在模型在线推理时引入数据漂移信息,达到主动自适应调节的效果。
量化选股场景中如何实践?
Master模型适应数据漂移的关键在于市场特征门控模块,其底层结构如下。
其中前两层采用标准的多头自注意力层,分别提取时序维度 以及股票维度 上的注意力特征,最终输出一个包含时空注意力特征的隐状态层。最后一层以该隐状态作为输入,将该隐状态的最后一个时间步作为查询向量,计算其与其他时间步之间的注意力权重,再与输入隐状态点积,将前两层提取的所有时间步信息聚合到最后一个时间步作为模型输出。
03 方法
04 结果
经组合优化后中证1000指数增强组合业绩对比如下。
经组合优化后中证1000指数增强组合业绩对比如下。
经组合优化后中证1000指数增强组合业绩对比如下。
从以上结果可知,线性门控模块和注意力门控模块均有效,其中注意力门控模块对应组合业绩表现有显著提升,具体来说:
1、从因子评价指标看,线性门控模块和注意力门控模块孰优孰劣并无确定性结论。从RankIC看,对于GRU模型,线性门控模块在三组数据集上均表现最好,而对于Master模型,注意力门控模块综合表现较优。
2、从中证1000组合业绩看,注意力门控模块综合表现占优。除Master模型在资金流数据集上表现一般之外,其余情况下注意力门控模块对应组合年化超额收益率和信息比率指标均最高,相比未加门控机制模型年化超额收益率可提升1至4 pct,信息比率可提升0.1至0.5的水平。
因子相关性分析
本节对加入门控机制前后模型输出预测因子间相关性进行对比。选取因子包括两种特征提取模块在不加门控、线性门控和注意力门控的情况下在三组特征集上训练得到的因子。
华泰金工前期报告《神经网络多频率因子挖掘模型》(2023-05-11)中尝试构建神经网络端到端因子挖掘模型,该模型输出的日K线、周K线、月K线因子与以上因子相关性也进行测试,结果如下。
可以发现,不同数据集因子相关性较低,GRU模型与Master模型因子相关性同样也较低,普遍在0.6左右;同模型同数据集不同门控模块因子相关性较高,普遍高于0.9;另外本文测试因子与AI端到端因子相关性普遍较低,大多数不超过0.5。
因子合成与组合构建
本节基于前文构建因子,结合AI端到端因子挖掘模型输出因子合成得到综合因子,并基于该因子构建中证1000指数增强组合。本节拟构建三个合成因子,具体构建方法如下。其中合成因子1和2作为基线参考,分别对应传统端到端AI量价多频率合成因子,以及三组特征集GRU合成因子的表现,合成因子3在端到端AI量价因子的基础上,引入市场特征门控和三层注意力特征提取模型的预测因子。以上每组因子合成时权重均为等权。经组合优化后中证1000指数增强组合业绩对比如下。
其中,合成因子3对应指增组合超额收益净值曲线及动态回撤如下。
05 总结
金融数据分布在时序上的非平稳性对AI量化模型是关键性挑战,有效应对数据漂移或可提升AI模型的表现。本研究从两个部分进行展开,第一部分针对时序预测问题中数据漂移的应对方法进行调研和综述;第二部分基于AI量化模型应对市场变化的代表性研究进行多方面改进和实证。结果表明,针对特征提取模块结构、门控机制等改进均有效。将传统AI量价因子与市场特征门控因子合成,基于其构建的中证1000指数增强组合2016-12-30至2025-01-27年化超额收益25.6%,信息比率3.24,业绩表现提升显著。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-27
智能体互联网原生平台企业
2026-06-26
我好像想到了一套完整的 AI 税方案
2026-06-03
【广发金工】财务分析Skills的创建与应用
2026-06-03
Workbuddy投研迎来史诗级加强
2026-05-26
Anthropic 亲自示范,如何使用金融Skills
2026-05-20
Claude重磅发布/金融神器 financial-services:彻底颠覆华尔街工作流,一键生成Pitch Deck与财报研报!
2026-03-27
给 AI 配张银行卡:Stripe 半年搭完的 Agent 支付全景
2026-03-05
为什么顶尖投行都选择了 Rogo 这个金融 Agent?
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。