2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

华泰金工 | 与时偕行:AI模型如何应对数据漂移

发布日期:2025-03-01 05:43:59 浏览次数: 3263
作者:华泰证券金融工程

微信搜一搜,关注“华泰证券金融工程”

推荐语

掌握AI量化模型在金融数据非平稳性下的应对策略。

核心内容:
1. AI模型面临的数据漂移挑战及其重要性
2. 针对数据漂移的三个主要应对视角:数据分布、模型结构、训练模式
3. 基于改进因子构建指数增强组合的效果测试与业绩表现

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
金融数据分布在时序上的非平稳性对AI量化模型是关键性挑战,有效应对数据漂移或可提升AI模型的表现。本研究针对AI时序预测模型应对数据漂移的方法进行调研和综述,总结出近年来应对数据漂移的三个主要视角:数据分布、模型结构、训练模式。本研究对市场特征门控模块、注意力特征提取模块在不同特征集上进行多项对比实验,实验结果表明市场特征门控机制、特征提取模型结构等改进均有效。最后基于改进因子尝试进行因子合成并构建指数增强组合,测试结果表明市场特征门控合成因子表现提升显著。

核心观点

人工智能86:与时偕行:AI模型如何应对数据漂移?
金融数据分布在时序上的非平稳性对AI量化模型是关键性挑战,有效应对数据漂移或可提升AI模型的表现。本研究由两部分构成,第一部分针对时序预测问题中数据漂移的应对方法进行调研和综述;第二部分基于AI量化模型应对市场变化的代表性研究进行多方面改进和实证。结果表明,针对特征提取模块结构、门控机制等改进均有效。将传统AI量价因子与市场特征门控因子合成,基于其构建的中证1000指数增强组合2016-12-30至2025-01-27年化超额收益25.6%,信息比率3.24,业绩表现提升显著。

应对数据漂移的三个视角:数据分布、模型结构、训练模式
本研究针对AI时序预测模型应对数据漂移的方法进行调研和综述。近年来发表于AI顶级会议及期刊的14篇相关研究主要通过三类方法应对数据漂移:其一,通过在模型训练前或训练过程中对非平稳的时间序列数据进行动态调整,化波动为稳定;其二,改进神经网络结构以动态检测和适应数据分布漂移;其三,利用在线学习、元学习、动态模型集成等方式提升模型迭代速度。量化领域相关研究中,Li等(2024)的研究从模型结构出发,做出了两项改进:其一,将市场特征通过门控机制输入神经网络,其二,通过三层注意力机制交叉提取股票时序和截面上的信息,具有较高参考价值。

实验结果:市场特征门控机制、特征提取模型结构等改进均有效
本研究对市场特征门控模块、注意力特征提取模块在不同特征集上进行多项对比实验。针对市场特征门控模块的实验结果表明,加入市场特征门控模块后因子评价指标及组合业绩均有提升,注意力机制门控表现更优,相比无门控模型中证1000指增组合2016-12-30至2025-01-27区间年化超额收益最高可提升4 pct;针对特征提取模块的实验结果表明,三层注意力特征提取模块相比传统GRU更具优势,三组特征集上预测因子RankIC均值平均可提升0.8 pct。因子相关性测试结果表明,加入门控、修改特征提取模块后因子与改进前因子及传统端到端AI量价因子间相关性均较低。

市场特征门控合成因子表现提升显著
本研究最后基于改进因子尝试进行因子合成并构建指数增强组合。最终综合因子由9个因子等权合成,分别为3个不同频率的端到端AI量价因子以及6个基于注意力门控和不同特征集训练得到的市场特征门控因子。测试结果表明,合成得到综合因子RankIC均值达到14.5%,RankICIR达到1.43,提升显著;基于该综合因子构建中证1000指数增强组合自2016-12-30至2025-01-27年化超额收益25.6%,信息比率3.29,业绩表现优异。

正    文

01 导读

“凡益之道,与时偕行” —— 《易经》


金融市场庞大复杂,瞬息万变,传统AI模型多基于独立同分布假设构建,当数据分布随着时间动态变化时,若模型依然固守成规,则其预测结果很可能产生偏差。因此,提升AI量化模型表现的关键在于使得模型具有应对数据漂移的能力。

本研究首先针对AI时序预测模型应对数据漂移的方法进行广泛的调研和综述。数据漂移及其应对方式在时序预测领域是炙手可热的话题之一,相关研究屡见不鲜。总结而言,应对数据漂移的方式主要分为三类:
1、数据分布:在模型训练前/过程中对非平稳的时间序列数据进行动态调整;
2、模型结构:改进神经网络结构以动态检测和适应数据分布漂移;
3、训练模式:利用在线学习、元学习、动态集成等方式提升模型迭代速度。

以上研究中也不乏针对量化领域AI模型做出的改进。其中Li等人于2024年发表于AAAI的会议论文针对股票市场中数据漂移的问题提出了Master模型,主要做出两方面的创新:
1、市场特征门控模块:通过门控模块引入市场状态对个股特征进行动态加权;
2、多维注意力特征提取模块:构建三层注意力模型对股票截面及时序信息动态建模。

本研究在Master模型的基础上,对门控模块、特征提取模块和不同特征集进行多方向改进和实证,结果表明门控机制、注意力特征提取层等改进均有效。最终基于市场特征门控合成因子构建中证1000指数增强组合,业绩得到显著提升。




02 AI模型如何应对数据漂移?

股票收益率预测问题面临的核心挑战之一为股票市场的非平稳性。股票特征与预期收益率之间的关联具有时变特性,即股票市场的统计规律易受到市场风格切换、投资者风险偏好、经济周期波动、货币政策调整、监管规则变更等多重因素影响。而传统AI量化模型多假设数据符合独立同分布,基于历史数据静态建模,在市场状态切换时容易失效。



AI量化模型如何适应市场状态?该问题其实可以拆解为两个部分:


1、时序预测任务中,AI模型如何应对数据漂移?


2、如何将这些方法应用于股票收益预测任务以提升AI量化模型表现?


以上话题是学术界的研究热点,本节中对近年来相关研究进行综述。


时序预测模型如何应对数据漂移?

在时序预测领域,数据的时序分布偏移(Temporal Distribution Shift)和概念漂移(Concept Drift)是影响模型预测准确性的关键因素。两者从不同角度描述了时序数据的非平稳性,其中时序分布偏移特指过去训练数据与未来测试数据之间分布的不一致,也称为“协变量漂移”或“特征漂移”;概念漂移特指输入特征与预测目标之间基础关系随时间的改变。两种漂移现象都会对模型预测造成影响,导致模型预测精度下降,产生误导性结果和决策。





针对数据漂移的问题,学术界提出了多种应对方法,从改进视角出发主要可归纳为数据分布、模型结构、训练模式三个维度。




本节对近年来AI顶级会议及期刊中的相关研究进行汇总综述,文献列表如下。


数据分布
第一类应对方法从数据视角出发,对非平稳的时间序列数据进行调整。Passalis等(2020)构造了一种深度自适应标准化层DAIN(Deep Adaptive Input Normalization),将数据标准化步骤融入到神经网络模型中,构造了一种端到端的自适应标准化模型,在训练的过程中学习时序数据的偏移(shifting)、缩放(scaling)和门控(gating)等标准化规律,并在推理时对输入特征进行自适应的标准化


Kim等(2021)提出了一种可逆时序标准化方法RevIN(Reversible Instance Normalization),对输入时间序列进行可学习的标准化变换,将非平稳时间序列转化为符合标准分布的时序特征进行训练,对模型预测目标时序分布再进行逆标准化还原原始数据中的时变信息


Liu等(2022)在Transformer模块的基础上改进得到了非平稳Transformer。该模型框架同样采用可逆平稳化的方式处理输入输出时间序列,但在模型结构中将Transformer中的注意力机制改进为去平稳化的注意力机制(De-stationary Attention),将非平稳时间序列信息注入神经网络中。



Fan等(2023)提出了一个名为Dish-TS(Distribution shift in Time Series)的通用时序分布自适应调整框架,利用任意形式的系数网络(CONET)捕捉回望窗口和预测窗口时序数据的水平(level)和尺度(scale)特征,在模型训练和推理阶段缓解回望窗口内的数据漂移以及回望窗口与预测窗口间数据漂移现象。


模型结构


第二种应对方法从模型结构出发,重点在于让模型能学习和预测数据分布的变化,从而适应非平稳的时间序列。其中,Du等(2021)提出了一种网络结构AdaRNN,将迁移学习和循环神经网络相结合。其核心思路分为两步,第一步通过时序相似性量化模块TDC(Temporal Distribution Characterization)将历史时间序列分成分布差异最大的多个小段;第二步通过时序分布匹配模块TDM(Temporal Distribution Matching)基于这些不同分布的序列,让模型学习共性信息,从而在预测有分布变化的数据时,能够更好地根据共性信息实现泛化。



微软亚研院的Li等(2022)提出了DDG-DA模型,该模型认为导致数据分布漂移的某些因素是可预测的,因此其设计了一个预测器用于预测数据未来可能发生的漂移,并根据预测数据分布对训练数据进行重采样生成新的数据集,再基于新数据集进行预测,从而减小训练数据和预测数据间的分布偏差,提升模型表现。



与AdaRNN思路类似,Lu等(2022)提出了一种基于对抗学习的域外表示学习框架DIVERSIFY,该框架优化目标是一个Min-Max问题,一方面让模型自动学习如何将时间序列切分属于多个域的片段,最大化各个域片段的分布差异;另一方面,学习域无关的共性表征,最小化模型在不同域中的预测误差。

哈佛大学的He等(2023)提出了RAINCOAT(fRequency augmented AlIgN-then-Correct for dOmain Adaptation for Time series)模型,对训练域和预测域时间序列数据分布的时域和频域特征进行建模,通过对齐、修正和推理三个阶段实现域自适应。


Wang等(2023)针对多变量时序异常检测场景下的数据漂移问题,提出了D³R(Dynamic Decomposition with Diffusion Reconstruction)模型,包含动态分解和扩散重构两个模块。其中动态分解模块针对时序数据漂移现象构建了时序数据-时间戳混合注意力机制,并在训练过程中加入漂移项噪声以增强模型的鲁棒性

Chen等(2024)提出了一个数据漂移检测和自适应框架,主要包括了Reconditionor(Residual-based context-driven distribution shift detector)和SOLID(Sample-level cOntextuaLIzed aDapter)两个模块,其中Reconditionor模块用于评估预测残差与数据分布之间的互信息,以衡量模型对分布漂移的敏感度,当探测到严重偏移时,SOLID模块则会利用有限步数对模型的预测层进行微调,从而实现最优的偏差方差平衡。

训练模式

第三类应对方法着眼于改进模型训练模式,通过在线学习、元学习等方式让模型更及时准确的适应新数据分布。其中,Pham等(2022)提出FSNet(Fast and Slow learning Network),借鉴互补学习系统(Complementary learning systems theory,CLS)理论,FSNet设计了一个快-慢学习网络用于在线时序预测场景,对于神经网络中的每一层均设计一个快速适应单元和一个联想记忆单元,通过检测两者的梯度相似性动态更新模型参数。


Zhang等(2023)设计了一种双流在线模型集成框架OneNet(Online Ensembling Network),该框架并行维护两个互补的预测模型分别对时序数据的时间维度、变量维度进行建模,同时引入强化学习模块,结合长期权重更新与短期历史反馈,在线调整模型集成权重。

Zhao等(2023)提出了一个元学习框架DoubleAdapt,包含两个基学习器:数据适应模块和模型适应模块。其中数据适应模块的作用类似第一种改进视角,即对数据分布进行动态调整,模型适应模块基于调整后数据优化模型预测准确性;而元学习器的目标即通过多个训练任务优化该两个基学习器的超参数,提升模型在线推理时对新数据分布的适应能力。

Zhao和Shen(2024)提出了一种具有主动适应能力的在线学习框架PROCEED,该框架通过一组编码器捕捉近期训练数据与测试数据间的概念漂移,并将其映射至模型权重之上,从而在模型在线推理时引入数据漂移信息,达到主动自适应调节的效果。


量化选股场景中如何实践?

以上汇总文献主要针对时序预测任务中的数据漂移问题提出了相对通用性的解决方案,除此之外也不乏直接围绕量化选股中股票收益预测任务中数据分布漂移问题所做的研究。

近期前沿研究中较有代表性的是由上海交通大学以及阿里的Li等人于2024年发表于AAAI的会议论文,该研究针对股票市场中数据漂移的问题,提出了Master(MArket-guided Stock TransformER)模型,主要做出了两方面的创新:
1、市场特征门控模块:将市场状态以宽基指数对应指标的形式显式表达,并通过门控模块输入神经网络,对个股特征进行动态加权
2、多维注意力特征提取模块:模型主体由两层标准自注意力层以及一层简化注意力层堆叠而成,前两层分别提取每只股票时序变化的信息、单个截面各个股票间的信息,最后一层对时序信息进行聚合得到当前时间步的输出。

Master模型针对数据分布漂移的解决方案可归类为模型结构的优化。与Chen等(2024)研究思路类似,将市场特征视作模型预测时的上下文信息,在不同的上下文背景(市场环境)下对模型进行微调(调整输入特征权重)。模型整体框架如下。

Master模型适应数据漂移的关键在于市场特征门控模块,其底层结构如下。


该模块接受两部分输入,分别为市场信息特征和常规的个股特征,其中市场信息特征的维度为, 为时序长度, 为市场特征数。经一层线性层以及Softmax层变换后即可得到归一化的市场特征权重,该权重即不同市场状态下的个股特征重要性。其中Softmax层中还引入了一个额外参数 ,用于控制市场特征对于个股特征的缩放幅度。将得到的市场特征权重与个股特征在后两个维度上直接相乘即可实现根据不同市场状态对个股的各特征权重进行动态调整。

模型主体部分也有别于传统Transformer模型。作者手动设计了三层注意力层用于提取和聚合不同维度的特征,各层结构如下。

其中前两层采用标准的多头自注意力层,分别提取时序维度  以及股票维度  上的注意力特征,最终输出一个包含时空注意力特征的隐状态层。最后一层以该隐状态作为输入,将该隐状态的最后一个时间步作为查询向量,计算其与其他时间步之间的注意力权重,再与输入隐状态点积,将前两层提取的所有时间步信息聚合到最后一个时间步作为模型输出。

03 方法

Master模型的市场特征门控机制和注意力机制设计逻辑清晰,结构巧妙,均有较大参考价值。本研究借鉴该模型,开展系列实验,尝试提升AI量化模型表现,并应用于指数增强组合的构建。


模型结构
参考Master模型结构设计,本研究拟测试神经网络结构主要包含门控模块和特征提取模块。其中门控模块设计采用两种方案,方案一与原文献保持一致,使用单层线性层提取市场特征权重;方案二将线性层替换为注意力层,将市场特征作为查询向量和键向量,将个股特征作为值向量,利用市场特征输出的注意力权重调整个股特征的重要性,结构如下。



模型主干的特征提取模块同样测试两种方案,方案一与原文献保持一致,即采用三个注意力层提取和聚合;方案二将注意力层替换为华泰金工前期报告中常用且证实有效的GRU模块作为对比,其模型结构如下。


数据集
市场特征
市场特征用于刻画市场当前状态,需选择具有代表性的指标。原论文中作者采用沪深300、中证500以及中证800三个指数的量价指标作为市场特征,然而原论文中的任务选股域仅局限于中证800成分股。因此本研究拟将宽基指数扩展至中证全指域,分别选取沪深300、中证500、中证1000和中证全指四只指数的各21个量价指标共构建84个刻画市场状态的特征。21个量价指标分5组,分别刻画宽基指数近期收益率及成交额的变化及波动,构造方法与原论文保持一致,具体构造细节如下。



个股特征
原论文中个股特征选用微软qlib框架中的预置特征集Alpha158,本研究中在此基础上额外测试两组特征集,分别为基本面+量价特征集Fundamental64以及资金流特征集MoneyFlow93。其中基本面+量价特征集从价值、成长、盈利、预期等多个维度计算64个基本面及量价指标,资金流特征集来自Wind底层表AShareMoneyFlow,包含不同类型投资者、不同交易时间段共93个资金流入流出数据。三组特征集的构造方式如下。



模型训练
神经网络模型训练过程中的其他细节处理汇总如下。


组合优化及回测
实验最后一步对模型输出预测值进行定量评价,并进一步基于该预测值构建指数增强组合和回测,以上步骤中涉及参数汇总如下。


04 结果

GRU vs Master
本节对特征提取模块进行对比测试。分别使用GRU和Master模型中的三层注意力神经网络在三组特征集上进行训练,模型均不加入市场特征门控模块,首先对比模型预测因子表现如下。



经组合优化后中证1000指数增强组合业绩对比如下。



以上结果表明,Master模型中的三层注意力特征提取模块总体效果优于双层GRU
1、从预测因子评价指标看,三层注意力模型在三组数据集上RankIC均值相比GRU模型均可提升约0.7 pct,RankICIR略有降低;
2、三层注意力模型在三组数据集上分层回测多头组收益均高于GRU模型,其中在数据集Fundamental64上多头收益提升效果较突出;
3、从中证1000指数增强组合业绩看,三层注意力模型在三组数据集上年化超额收益及信息比率等指标均优于GRU模型,对于MoneyFlow93及Fundamental64数据集提升效果突出,全区间年化超额收益可提升约2 pct


门控缩放系数敏感性测试
本节重点对线性门控模块中缩放系数参数 β 的敏感性进行测试。市场特征对个股特征的调整方法用公式表示为:

其中  为市场特征经过线性层后的输出,该输出除以 β 之后经过Softmax层即可得到一个归一化的向量,将该权重与特征数相乘即可得到一个均值为1的权重向量,即可视为对于每个特征的缩放系数。由此可知,β 参数越大,最终输出权重越均匀,市场特征对于个股特征的调整幅度也越小

本节基于GRU模型和Alpha158特征集进行对比实验,其中门控模块中缩放系数参数 β 分别取1、3、5、10,基线模型为移除门控模块后的GRU模型,实验结果如下。首先观察不同缩放系数参数 β 下门控模块输出权重的分布,可以发现,β 取值为1时输出缩放系数方差较大,部分特征会得到2倍以上的放大;随着 β 取值增大,门控模块输出缩放系数取值范围对应缩小,当 β 取10时输出缩放系数基本集中在0.95至1.05之间。



5组模型预测因子评价指标汇总如下。


经组合优化后中证1000指数增强组合业绩对比如下。



对比以上结果发现,β 取值在1到3时模型表现较优。具体来说:
1、从模型预测因子RankIC角度看,加入门控机制后均有所提升,且随着 β 增大逐步提升,β 取5时最高,不过RankICIR有所降低;
2、从中证1000指数增强组合业绩看,加入门控机制后年化超额收益及信息比率均有显著提升,β 取1时年化超额收益最高,β 取3时信息比率最高;
3、加入门控机制后超额收益最大回撤均得到了较好控制,从11%降低到8%左右,说明引入市场信息确实可提升模型对市场环境的适应性,一定程度上避免大幅回撤


线性门控 vs 注意力门控
本节重点对比线性层门控模块与注意力机制门控模块表现。根据上节结论,本节线性层门控模块中缩放系数参数 β 设置为3。本节基于GRU和三层注意力特征提取模块,分别搭配线性层门控模块和注意力机制门控模块进行实验,在Alpha158,MoneyFlow93和Fundamental64三组特征集上进行测试。首先对比模型预测因子评价指标如下。


经组合优化后中证1000指数增强组合业绩对比如下。


从以上结果可知,线性门控模块和注意力门控模块均有效,其中注意力门控模块对应组合业绩表现有显著提升,具体来说:


1、从因子评价指标看,线性门控模块和注意力门控模块孰优孰劣并无确定性结论。从RankIC看,对于GRU模型,线性门控模块在三组数据集上均表现最好,而对于Master模型,注意力门控模块综合表现较优。


2、从中证1000组合业绩看,注意力门控模块综合表现占优。除Master模型在资金流数据集上表现一般之外,其余情况下注意力门控模块对应组合年化超额收益率和信息比率指标均最高,相比未加门控机制模型年化超额收益率可提升1至4 pct,信息比率可提升0.1至0.5的水平。


因子相关性分析



本节对加入门控机制前后模型输出预测因子间相关性进行对比。选取因子包括两种特征提取模块在不加门控、线性门控和注意力门控的情况下在三组特征集上训练得到的因子。




华泰金工前期报告《神经网络多频率因子挖掘模型》(2023-05-11)中尝试构建神经网络端到端因子挖掘模型,该模型输出的日K线、周K线、月K线因子与以上因子相关性也进行测试,结果如下。

可以发现,不同数据集因子相关性较低,GRU模型与Master模型因子相关性同样也较低,普遍在0.6左右;同模型同数据集不同门控模块因子相关性较高,普遍高于0.9;另外本文测试因子与AI端到端因子相关性普遍较低,大多数不超过0.5。


因子合成与组合构建

本节基于前文构建因子,结合AI端到端因子挖掘模型输出因子合成得到综合因子,并基于该因子构建中证1000指数增强组合。本节拟构建三个合成因子,具体构建方法如下。其中合成因子1和2作为基线参考,分别对应传统端到端AI量价多频率合成因子,以及三组特征集GRU合成因子的表现,合成因子3在端到端AI量价因子的基础上,引入市场特征门控和三层注意力特征提取模型的预测因子。以上每组因子合成时权重均为等权。



三组合成因子评价指标对比如下。


经组合优化后中证1000指数增强组合业绩对比如下。



其中,合成因子3对应指增组合超额收益净值曲线及动态回撤如下。


对比以上结果可知,在传统端到端AI量价等因子的基础上加入市场特征门控因子后表现得到了较为显著的提升。其中:
1、对比三组合成因子表现可知,三组新特征集经基础GRU模型合成后因子表现一般,而加入市场特征门控以及三层注意力特征提取模块后合成因子表现提升显著;
2、从因子评价指标的角度看,合成因子3的RankIC均值达到14.5%,在端到端AI量价合成因子的基础上提升了0.8 pct,RankICIR达到1.43,在端到端AI量价合成因子的基础上提升了0.27,改进效果显著;
3、经组合优化后,中证1000指数增强组合自2016-12-30至2025-01-27年化超额收益25.6%,信息比率3.29,业绩表现优异。

05 总结

金融数据分布在时序上的非平稳性对AI量化模型是关键性挑战,有效应对数据漂移或可提升AI模型的表现。本研究从两个部分进行展开,第一部分针对时序预测问题中数据漂移的应对方法进行调研和综述;第二部分基于AI量化模型应对市场变化的代表性研究进行多方面改进和实证。结果表明,针对特征提取模块结构、门控机制等改进均有效。将传统AI量价因子与市场特征门控因子合成,基于其构建的中证1000指数增强组合2016-12-30至2025-01-27年化超额收益25.6%,信息比率3.24,业绩表现提升显著。


应对数据漂移的三个视角:数据分布、模型结构、训练模式。本研究针对AI时序预测模型应对数据漂移的方法进行调研和综述。近年来发表于AI顶级会议及期刊的14篇相关研究主要通过三类方法应对数据漂移:其一,通过在模型训练前或训练过程中对非平稳的时间序列数据进行动态调整,化波动为稳定;其二,改进神经网络结构以动态检测和适应数据分布漂移;其三,利用在线学习、元学习、动态模型集成等方式提升模型迭代速度。量化领域相关研究中,Li等(2024)的研究从模型结构出发,做出了两项改进:其一,将市场特征通过门控机制输入神经网络,其二,通过三层注意力机制交叉提取股票时序和截面上的信息,具有较高参考价值。

实验结果:市场特征门控机制、特征提取模型结构等改进均有效。本研究对市场特征门控模块、注意力特征提取模块在不同特征集上进行多项对比实验。针对市场特征门控模块的实验结果表明,加入市场特征门控模块后因子评价指标及组合业绩均有提升,注意力机制门控表现更优,相比无门控模型中证1000指增组合2016-12-30至2025-01-27区间年化超额收益最高可提升4 pct;针对特征提取模块的实验结果表明,三层注意力特征提取模块相比传统GRU更具优势,三组特征集上预测因子RankIC均值平均可提升0.8 pct。因子相关性测试结果表明,加入门控、修改特征提取模块后因子与改进前因子及传统端到端AI量价因子间相关性均较低。

市场特征门控合成因子表现提升显著。研究最后基于改进因子尝试进行因子合成并构建指数增强组合。最终综合因子由9个因子等权合成,分别为3个不同频率的端到端AI量价因子以及6个基于注意力门控和不同特征集训练得到的市场特征门控因子。测试结果表明,合成得到综合因子RankIC均值达到14.5%,RankICIR达到1.43,提升显著;基于该综合因子构建中证1000指数增强组合自2016-12-30至2025-01-27年化超额收益25.6%,信息比率3.29,业绩表现优异。

本研究依然存在以下未尽之处:
1、综述部分重点总结AI时序预测领域对数据漂移的应对方式,其中许多方法或可在AI量化领域上进行迁移和测试;
2、实证部分当前仅以宽基指数的量价数据作为市场特征,未对市场特征的选取开展大规模测试。而宽基指数的量价指标并不能准确且完善的表述金融市场状态。未来可尝试加入行业、风格、宏观等多角度特征;
3、最终构建合成因子时仅采用简单等权合成的方法,未来或可使用机器学习模型尝试进一步提升合成因子及指增组合的表现;
4、本研究中模型训练时均未大范围调参,对模型训练流程深入探索或可进一步提升表现。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅