一种股票的向量化表示方法、系统、装置及存储介质与流程

文档序号:34858351发布日期:2023-07-23 01:46阅读:105来源:国知局
一种股票的向量化表示方法、系统、装置及存储介质与流程

本发明涉及一种股票的向量化表示方法、系统、装置及存储介质,属于股票分析。


背景技术:

1、股票价格波动会受到宏观政策、产业政策、突发事件等多种因素的影响,股票价格走势充分反映了个股内在价值及外部环境的变化,通常同一行业、板块或相同类型的股票,其价格走势会受到产业政策、行业景气度、估值变化、突发事件等因素的同向影响,在一定时间尺度上表现出相似的走势。股票价格走势的相似度能够很好的刻画个股间的内在相似性。

2、现有技术中通常采用one-hot编码、nlp领域的词向量技术和lstm、transfomer、reformer、autoformer等针对时间序列的编解码模型对个股的时序数据进行向量化编码,从而获取个股间的内在相似性;但是,one-hot编码在类别数量特别大的时候产生维数灾难(向量长度太大,导致样本数据量急剧扩大),同时由于任意两个类别对应向量是正交的,无法刻画个股的相似性;词向量方法能够很好的刻画词与词的语义相似度,向量维度较低,实用性强。但需要大量的具有上下文关系的语料训练,对应股票向量化场景并不适用;lstm、transfomer、reformer、autoformer等针对时间序列的编解码模型,该类方法主要针对个体时间序列进行向量化编码,具备一定的刻画个股价格走势的能力,但由于模型结构上没有考虑不同股票的走势差异的比较,在度量不同股票走势相似性时效果较差。


技术实现思路

1、本发明的目的在于克服现有技术中的不足,提供一种股票的向量化表示方法、系统、装置及存储介质,能够从股票价格走势中学习个股的固定维度浮点型向量表征,该向量表征能够很好的刻画个股的相似性。

2、为达到上述目的,本发明是采用下述技术方案实现的:

3、第一方面,本发明提供了一种股票的向量化表示方法,包括:

4、获取预设时段内多个个股的行情数据;

5、对各个股的行情数据进行序列化处理,生成多个时间尺度的时序数据;

6、对各时序数据采用训练好的时序自编码器进行编码,生成编码向量;

7、对各编码向量进行平均池化,生成相应个股的第一阶段向量表征;

8、对各个股进行两两配对,将各配对结果的两个个股的第一阶段向量表征输入训练好的神经网络模型,生成相应配对结果的第二阶段向量表征并输出。

9、可选的,所述多个时间尺度包括日、周、月、季度以及年。

10、可选的,所述生成多个时间尺度的时序数据包括:

11、针对各时间尺度,计算各时间点对应时间周期内行情数据的跌涨幅值;

12、根据各时间点的跌涨幅值按时间顺序汇总生成时序数据。

13、可选的,所述时序自编码器的训练过程包括:

14、获取预设第一数量的时序数据生成编码样本集;

15、以lstm作为基础模型构建时序自编码器,所述时序自编码器包括编码器和解码器;

16、通过编码样本集训练时序自编码器:将时序数据输入编码器,获取编码向量;将编码向量输入解码器,获取数据预测;

17、根据时序数据和数据预测计算编码损失,根据编码损失优化编码器和解码器,根据优化后的时序自编码器进行迭代训练,直至编码损失收敛。

18、可选的,所述编码样本集中的时序数据的长度大于等于10且小于等于800。

19、可选的,所述神经网络模型的训练过程包括:

20、获取预设第二数量的个股的多个时间尺度的时序数据和第一阶段向量表征;

21、将各个股进行两两配对,将各配对结果的两个个股的第一阶段向量表征作为样本输入;根据各配对结果的两个个股的多个时间尺度的时序数据计算平均绝对差值,将各平均绝对差值汇总为样本标签;

22、根据样本输入和相应的样本标签构建训练样本集;

23、构建神经网络模型,所述神经网络模型包括dnn-net1模型和dnn-net2模型;

24、通过训练样本集训练神经网络模型:将样本输入输入dnn-net1模型,获取两个第二阶段向量表征预测;将两个第二阶段向量表征预测作差获取差值向量;将差值向量输入dnn-net2模型,获取标签预测;

25、根据样本标签和标签预测计算模型损失,根据模型损失采用反向传播方法优化dnn-net1模型和dnn-net2模型的模型参数,根据模型参数优化后的神经网络模型进行迭代训练,直至模型损失收敛。

26、可选的,所述dnn-net2模型为多目标网络,所述多目标网络中各目标分别对应各时间尺度;所述dnn-net2模型对差值向量进行处理生成各时间尺度的差值预测,将各差值预测汇总为标签预测;

27、所述根据样本标签和标签预测计算模型损失包括:计算各时间尺度的平均绝对差值与差值预测的差值损失,对个差值损失进行加权和操作得到模型损失。

28、第二方面,本发明提供了一种股票的向量化表示系统,所述系统包括:

29、数据获取模块,用于获取预设时段内多个个股的行情数据;

30、时序转换模块,用于对各个股的行情数据进行序列化处理,生成多个时间尺度的时序数据;

31、向量生成模块,用于对各时序数据采用训练好的时序自编码器进行编码,生成编码向量;

32、第一表征模块,用于对各编码向量进行平均池化,生成相应个股的第一阶段向量表征;

33、第二表征模块,用于对各个股进行两两配对,将各配对结果的两个个股的第一阶段向量表征输入训练好的神经网络模型,生成相应配对结果的第二阶段向量表征并输出。

34、第三方面,本发明提供了一种股票的向量化表示装置,包括处理器及存储介质;

35、所述存储介质用于存储指令;

36、所述处理器用于根据所述指令进行操作以执行根据上述方法的步骤。

37、第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。

38、与现有技术相比,本发明所达到的有益效果:

39、本发明提供的一种股票的向量化表示方法、系统、装置及存储介质,其方法在第一阶段通过训练自编码器得到刻画不同价格趋势的向量表征,在第二阶段通过本发明提出的神经网络模型及样本构建方法,得到反映不同股票价格相对走势的向量表征;综上,本发明通过学习各个股票走势的差异,得到个股的低维浮点型向量化表征,该表征能够很好的表达个股走势的差异。下游任务可以使用该向量表征作为特征提升模型效果



技术特征:

1.一种股票的向量化表示方法,其特征在于,包括:

2.根据权利要求1所述的一种股票的向量化表示方法,其特征在于,所述多个时间尺度包括日、周、月、季度以及年。

3.根据权利要求1所述的一种股票的向量化表示方法,其特征在于,所述生成多个时间尺度的时序数据包括:

4.根据权利要求1所述的一种股票的向量化表示方法,其特征在于,所述时序自编码器的训练过程包括:

5.根据权利要求4所述的一种股票的向量化表示方法,其特征在于,所述编码样本集中的时序数据的长度大于等于10且小于等于800。

6.根据权利要求1所述的一种股票的向量化表示方法,其特征在于,所述神经网络模型的训练过程包括:

7.根据权利要求6所述的一种股票的向量化表示方法,其特征在于,所述dnn-net2模型为多目标网络,所述多目标网络中各目标分别对应各时间尺度;所述dnn-net2模型对差值向量进行处理生成各时间尺度的差值预测,将各差值预测汇总为标签预测;

8.一种股票的向量化表示系统,其特征在于,所述系统包括:

9.一种股票的向量化表示装置,其特征在于,包括处理器及存储介质;

10.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。


技术总结
本发明公开了一种股票的向量化表示方法、系统、装置及存储介质,其方法包括:获取预设时段内多个个股的行情数据;对各个股的行情数据进行序列化处理,生成多个时间尺度的时序数据;对各时序数据采用训练好的时序自编码器进行编码,生成编码向量;对各编码向量进行平均池化,生成相应个股的第一阶段向量表征;对各个股进行两两配对,将各配对结果的两个个股的第一阶段向量表征输入训练好的神经网络模型,生成相应配对结果的第二阶段向量表征并输出;本发明能够从股票价格走势中学习个股的固定维度浮点型向量表征,该向量表征能够很好的刻画个股的相似性,下游任务可以使用该向量表征作为特征提升模型效果。

技术研发人员:刘君亮,王玲,邵旭,曾文秋,潘明慧,吴璟,周翔,刘园
受保护的技术使用者:华泰证券股份有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1