股票形态库生成及形态库实时匹配的方法、系统及应用与流程

文档序号:16790864发布日期:2019-02-01 19:37阅读:832来源:国知局
股票形态库生成及形态库实时匹配的方法、系统及应用与流程

本发明涉及量化金融领域,具体的说是一种股票形态库生成及形态库实时匹配的方法、系统及应用,主要针对行情信息进行数据分析,是一种针对股票价格形态的分析类方法、系统和工具,可以实现形态生成和形态匹配功能。



背景技术:

随着金融市场的高速发展,信息化水平的不断提高和大众投资意识的不断增强,二级市场的体量越来越大,成交量也越来越大。对交易信息的分析方式不断增加。而随着数据分析行业的崛起、人工智能领域的爆发,交易市场的分析方法也从主观分析、基本面分析等传统方法在向量化分析领域拓展。

目前市场中,美股市场的程序化交易和量化分析方法的起步最早,早在上世纪50年代,在马科维茨、夏普等人的研究基础上就形成了资本资产定价模型和投资组合模型,这是量化分析在证券市场最早的运用。之后随着计算机科学的发展,计算水平的不断提高,摩根史坦利、肖氏对冲基金、大本营投资等很多知名基金公司都逐渐使用量化分析的方式对市场进行深入研究。时至今日,量化分析发放已成为美股市场主流的分析手段。

我国的证券市场量化方面属于起步探索阶段。本发明便是从其中一个角度出发,通过综合信号领域算法、大数据技术和机器学习等多种前沿科技,对证券领域的标的行情进行了分析,从数十亿片段中找到相对有意义的片段集合,组成华泰自主的形态库,同时还具备离线和在线实时匹配能力。该发明可直接或间接应用于量化模型,也可为证券交易人员提供辅助决策和分析。



技术实现要素:

针对上述技术问题,本发明提出一种股票形态库生成及形态库实时匹配的方法,包括,

股票股价形态库生成:使用历史股价信息,在制定时间尺度上将相同时间跨度,类似形态的股票片段聚为一类;使用不同时间跨度,对全部股票数据进行检索,得到该时间尺度下的一个形态库;

以及,形态库实时匹配:对所有股票的数据进行监控,通过形态比对算法与形态库中的形态进行匹配,提示相似度最高的形态类型,分钟级形态匹配每分钟更新一次匹配结果,天级匹配则在每天结束后匹配。

进一步优选的,使用历史股价信息,在制定时间尺度上将相同时间跨度,类似形态的股票片段聚为一类的步骤包括,

(1)在形态库生成阶段将股价涨跌比例特征的数据标准化;

(2)对相同长度的片段进行相同参数的sax符号化,在此基础上得到初始形态聚类中心;

使用不同时间跨度,对全部股票数据进行检索,得到该时间尺度下的一个形态库的步骤包括,

(3)以初始形态聚类为中心,设定迭代半径,进行聚类迭代计算,得到每一个聚类中心点和聚类集合的大小,聚类中心点由聚类集合中的片段均值计算得到;

(4)当聚类中心不再变化或者迭代次数达到阈值则停止;当所有聚类集和计算完毕后进行相互合并,将聚类中心相似度超过阈值的合并为一类,并重新计算该集合的中心,得到最终的股票股价形态库。

进一步优选的,对所有股票的数据进行监控,通过形态比对算法与形态库中的形态进行匹配,提示相似度最高的形态类型的步骤包括,根据股票的实时数据切去最新的片段,使用与形态库相同的参数进行数据标准化,与形态库各集合的中心进行比对,找到相似度最高的中心并推送到前端。

进一步优选的,所述形态库覆盖股票历史信息中出现频次较高的片段。

进一步优选的,所述股票股价形态库生成包括以下步骤:

(1)符号化阶段;根据股票序列的总长度和切割片段的总长度,计算出这支股票可以切割成的总窗口的个数,总长度包含了两个部分:需要编码的长度和需要进行统计的长度;根据编码片段的长度和压缩后片段的长度计算压缩率;根据片段的长度对整支股票进行切割;对每一个切割的片段进行z-score标准化;对每一个切割的片段进行paa算法的压缩;对压缩后的片段进行符号化编码;

(2)插值阶段;根据符号化结果进行插值,是符号化的逆向过程;根据alphabet_size和正态分布,生成数轴的分割点;根据分割后的数轴的每个片段,求其平均值,作为该编码对应的股票的模拟值;根据股票片段的长度来进行线性插值;

(3)标准化阶段;模拟股票片段直接除以绝对的范围进行标准化;股票片段则是减均值除以均值再除以绝对的范围;

(4)聚类阶段:对编码后的片段的符号化结果进行统计,并以符号化插值结果作为中心点作为聚类的初始中心;将所有的股票片段与初始中心进行比较,计算他们的距离;距离的比较方法是变周期,距离的比较方法选用欧式距离;将满足每个聚类结果的片段求均值作为聚类的新的中心点,再进行迭代计算;取满足合并中心阈值的中心点以及对应的片段数据;根据片段数据计算类别的新的中心;将相近的迭代中心以merge_simid为阈值进行合并,得到最后的聚类中心;

(5)结果统计;计算统计片段中总长的次数,总跌的次数,最高点的位置,最低点的位置,最大的涨幅,最大的跌幅,涨的总面积,跌的总面积以及各个位置点的卷积比较。

进一步优选的,所述形态库实时匹配包括以下步骤:

(1)载入股票;对所有股票的数据进行监控;

(2)股价数据标准化;根据股票的实时数据切去最新的片段,使用与形态库相同的参数进行数据标准化;

(3)逐段划分计算距离;按一定的参数和已经生成的形态库中的片段进行比对;

(4)阈值对比;如果该片段的比对结果满足相似度阈值,则该片段就属于该形态;

(5)排序并输出结果;找到相似度最高的中心并推送到前端。

进一步优选的,所述段划分计算距离的步骤逐段划分采用变周期所述段划分计算距离的步骤计算距离采用欧氏距离相似度

本发明还提出一种一种股票形态库生成及形态库实时匹配系统,其特征在于:包括股票股价形态库生成模块和形态库实时匹配模块。

进一步的,本发明还提出股票形态库生成及形态库实时匹配的方法在金融证券行业量化分析方面的应用。

进一步的,本发明还提出股票形态库生成及形态库实时匹配系统在金融证券行业量化分析方面的应用。

有益效果:本发明通过综合信号领域算法、大数据技术和机器学习等多种前沿科技,对证券领域的标的行情进行分析,从数十亿片段中找到了相对有意义的片段集合,采用股票形态库生成及形态库实时匹配方法组成形态库,可直接或间接应用于量化模型,也可为证券交易人员提供辅助决策和分析,本发明能根据用户指定时间跨度和时间尺度形成较为完整的形态库,并在连接实时行情系统,做到相同时间尺度下的实时匹配与推送,解决了股票股价形态库生成和股票股价信息与形态库实时匹配,从而解决了金融证券行业量化分析的难题。

附图说明

图1-1为形态库生成流程图第一部分;

图1-2形态库生成流程图第二部分;

图2为股票实时匹配流程图;

图3为形态库生成模块图;

图4为maptostring原理描述图;

图5为插值原理描述图;

图6为根据符号化插值结果作为初始中心,颜色深度代表属于该类别的片段数;

图7为聚类过程说明图;

图8为合并相近的中心点图。

具体实施方式

实施例1:

一种股票形态库生成及形态库实时匹配的方法,包括,

股票股价形态库生成:使用历史股价信息,在制定时间尺度上(天级,分钟级),将相同时间跨度,类似形态的股票片段聚为一类;使用不同时间跨度,对全部股票数据进行检索,得到该时间尺度下的一个形态库;形态库会覆盖股票历史信息中出现频次较高的片段。

以及,形态库实时匹配:对所有股票的数据进行监控,通过形态比对算法与形态库中的形态进行匹配,提示相似度最高的形态类型,分钟级形态匹配每分钟更新一次匹配结果,天级匹配则在每天结束后匹配。

进一步优选的,如图1所示,在形态库生成阶段采用保留物理特性(即股价涨跌比例特征)的数据标准化,之后对相同长度的片段进行相同参数的sax符号化,在此基础上得到初始形态聚类中心。之后,以初始聚类为中心,设定迭代半径,进行聚类迭代计算,从而得到每一个聚类中心点和聚类集合的大小,聚类中心点由聚类集合中的片段均值计算得到。当聚类中心不再变化或者迭代次数达到阈值则停止。当所有聚类集和计算完毕后进行相互合并,将聚类中心相似度超过阈值的合并为一类,并重新计算该集合的中心,得到最终的形态库。

进一步优选的,如图2所示,实时匹配阶段根据股票的实时数据切去最新的片段,使用与形态库相同的参数进行数据标准化,与形态库各集合的中心进行比对,找到相似度最高的中心并推送到前端。本发明能根据用户指定时间跨度和时间尺度形成较为完整的形态库,并在连接实时行情系统,做到相同时间尺度下的实时匹配与推送。

形态库包含两个主要模块。第一个模块是形态库生成,第二个是形态库匹配。形态库生成是将所有历史股票数据相似的片段进行聚类,在聚类过程中主要用到了sax符号化算法。形态库匹配是将股票片段与聚类中心相比较,计算该片段是否属于某一类,从而得出该片段可能具有的特征。

进一步优选的,如图3所示,所述股票股价形态库生成包括以下步骤:

1.符号化阶段

1.1.根据股票序列的总长度和切割片段的总长度(n_total),计算出这支股票可以切割成的总窗口的个数(win_num)。n_total包含了两个部分:需要编码的长度(n)和需要进行统计的长度(n_total-n)。

1.2.根据编码片段的长度(n)和压缩后片段的长度(n)计算压缩率(win_compress)

1.3.根据片段的长度对整支股票进行切割

1.4.对每一个切割的片段进行z-score标准化

1.5.对每一个切割的片段进行paa算法的压缩

1.5.1n==n不做任何变换

1.5.2n%n!=0做拉伸插值变换,然后求均值

1.5.3n%n==0直接求均值

1.6.对压缩后的片段进行符号化编码

1.6.1首先根据alphabet_size对数轴进行切割(cut_points),获取符号化所需的切割点。此方法会根据alphabet_size的大小将整个数轴按正态分布进行分割。

1.6.2根据切割点进行编码(maptostring),将标准化和符号化之后的股票片段的每一个点逐一和切割点进行比较,根据比较的结果进行编码。如图4所示,maptostring原理描述图(黑点表示标准化之后的数据,虚线是切割点)。

2.插值阶段

如图5所示,图5为插值原理描述图(因为说明书附图不能用用有颜色的图,因此采用浅色点(拐点部位)表示符号化的数据,黑色点表示插值模拟点)

根据符号化结果进行插值,是符号化的逆向过程,

2.1.根据alphabet_size和正态分布,生成数轴的分割点

2.2.根据分割后的数轴的每个片段,求其平均值,作为该编码对应的股票的模拟值

2.3.根据股票片段的长度来进行线性插值

3.标准化阶段

3.1.模拟股票片段直接除以绝对的范围进行标准化

3.2.股票片段则是减均值除以均值再除以绝对的范围

4聚类阶段

4.1.如图6所示,根据符号化插值结果作为初始中心,颜色深度代表属于该类别的片段数,对编码后的片段的符号化结果进行统计,并以符号化插值结果作为中心点作为聚类的初始中心。

如图7所示,

4.2.将所有的股票片段与初始中心进行比较,计算他们的距离

4.2.1距离的比较方法是变周期(multiscale_tren_d)

将股票片段从1倍,1/2倍,1/4倍,1/8倍进行相似比对,直至最后2点,然后将最后两点进行比较。

距离的比较方法选用欧式距离。

judge的判断标准是所有片段比较的平均值(dis)大于等于0.5,且相似度小于0.6的片段不到片段总量的一半,且总片段相似值大于0.65。

simi_d是各个片段相似度加权所得。首先将除整体片段之外的相似度最小的片段权重设为0,再将此权重加在总片段相似度上。

4.3.将满足每个聚类结果的片段求均值作为聚类的新的中心点,再进行迭代计算。

4.4.取满足合并中心阈值的中心点以及对应的片段数据。

4.5.根据片段数据计算类别的新的中心,迭代是过程的半径是topn,而最终的中心点是取相似度满足阈值的片段计算得来。

4.6.如图8所示,将相近的迭代中心以merge_simid为阈值进行合并,得到最后的聚类中心。

5.结果统计

5.1.计算统计片段中总长的次数,总跌的次数,最高点的位置,最低点的位置,最大的涨幅,最大的跌幅,涨的总面积,跌的总面积以及各个位置点的卷积比较。

形态库匹配模块是将输入的股票片段,按一定的参数和已经生成的形态库中的片段进行比对。如果该片段的比对结果满足相似度阈值,则该片段就属于该形态。

进一步优选的,如图2所示,所述形态库实时匹配包括以下步骤:

(1)载入股票;对所有股票的数据进行监控;

(2)股价数据标准化;根据股票的实时数据切去最新的片段,使用与形态库相同的参数进行数据标准化;

(3)逐段划分计算距离;按一定的参数和已经生成的形态库中的片段进行比对;

(4)阈值对比;如果该片段的比对结果满足相似度阈值,则该片段就属于该形态;

(5)排序并输出结果;找到相似度最高的中心并推送到前端。

进一步优选的,所述段划分计算距离的步骤逐段划分采用变周期所述段划分计算距离的步骤计算距离采用欧氏距离相似度

本发明通过综合信号领域算法、大数据技术和机器学习等多种前沿科技,对证券领域的标的行情进行分析,从数十亿片段中找到了相对有意义的片段集合,采用股票形态库生成及形态库实时匹配方法组成形态库,可直接或间接应用于量化模型,也可为证券交易人员提供辅助决策和分析,本发明能根据用户指定时间跨度和时间尺度形成较为完整的形态库,并在连接实时行情系统,做到相同时间尺度下的实时匹配与推送,解决了股票股价形态库生成和股票股价信息与形态库实时匹配,从而解决了金融证券行业量化分析的难题。

实施例2:本发明还提出一种股票形态库生成及形态库实时匹配系统,包括股票股价形态库生成模块和形态库实时匹配模块。

股票股价形态库生成模块:使用历史股价信息,在制定时间尺度上将相同时间跨度,类似形态的股票片段聚为一类;使用不同时间跨度,对全部股票数据进行检索,得到该时间尺度下的一个形态库;

形态库实时匹配模块:对所有股票的数据进行监控,通过形态比对算法与形态库中的形态进行匹配,提示相似度最高的形态类型,分钟级形态匹配每分钟更新一次匹配结果,天级匹配则在每天结束后匹配。

使用历史股价信息,在制定时间尺度上将相同时间跨度,类似形态的股票片段聚为一类的步骤包括,在形态库生成阶段将股价涨跌比例特征的数据标准化;对相同长度的片段进行相同参数的sax符号化,在此基础上得到初始形态聚类中心。

使用不同时间跨度,对全部股票数据进行检索,得到该时间尺度下的一个形态库的步骤包括,以初始形态聚类为中心,设定迭代半径,进行聚类迭代计算,得到每一个聚类中心点和聚类集合的大小,聚类中心点由聚类集合中的片段均值计算得到;当聚类中心不再变化或者迭代次数达到阈值则停止;当所有聚类集和计算完毕后进行相互合并,将聚类中心相似度超过阈值的合并为一类,并重新计算该集合的中心,得到最终的股票股价形态库。

对所有股票的数据进行监控,通过形态比对算法与形态库中的形态进行匹配,提示相似度最高的形态类型的步骤包括,根据股票的实时数据切去最新的片段,使用与形态库相同的参数进行数据标准化,与形态库各集合的中心进行比对,找到相似度最高的中心并推送到前端。

所述形态库覆盖股票历史信息中出现频次较高的片段。

所述股票股价形态库生成模块包括以下子模块:

(1)符号化阶段子模块;符号化阶段子模块根据股票序列的总长度和切割片段的总长度,计算出这支股票可以切割成的总窗口的个数,总长度包含了两个部分:需要编码的长度和需要进行统计的长度;根据编码片段的长度和压缩后片段的长度计算压缩率;根据片段的长度对整支股票进行切割;对每一个切割的片段进行z-score标准化;对每一个切割的片段进行paa算法的压缩;对压缩后的片段进行符号化编码;

(2)插值阶段子模块;插值阶段子模块根据符号化结果进行插值,是符号化的逆向过程;根据alphabet_size和正态分布,生成数轴的分割点;根据分割后的数轴的每个片段,求其平均值,作为该编码对应的股票的模拟值;根据股票片段的长度来进行线性插值;

(3)标准化阶段子模块;标准化阶段子模块模拟股票片段直接除以绝对的范围进行标准化;股票片段则是减均值除以均值再除以绝对的范围;

(4)聚类阶段子模块:聚类阶段子模块对编码后的片段的符号化结果进行统计,并以符号化插值结果作为中心点作为聚类的初始中心;将所有的股票片段与初始中心进行比较,计算他们的距离;距离的比较方法是变周期,距离的比较方法选用欧式距离;将满足每个聚类结果的片段求均值作为聚类的新的中心点,再进行迭代计算;取满足合并中心阈值的中心点以及对应的片段数据;根据片段数据计算类别的新的中心;将相近的迭代中心以merge_simid为阈值进行合并,得到最后的聚类中心;

(5)结果统计子模块;结果统计子模块计算统计片段中总长的次数,总跌的次数,最高点的位置,最低点的位置,最大的涨幅,最大的跌幅,涨的总面积,跌的总面积以及各个位置点的卷积比较。

所述形态库实时匹配模块包括以下子模块:

(1)载入股票子模块;载入股票子模块对所有股票的数据进行监控;

(2)股价数据标准化子模块;股价数据标准化子模块根据股票的实时数据切去最新的片段,使用与形态库相同的参数进行数据标准化;

(3)逐段划分计算距离子模块;逐段划分计算距离子模块按一定的参数和已经生成的形态库中的片段进行比对;所述段划分计算距离的步骤逐段划分采用变周期

所述段划分计算距离的步骤计算距离采用欧氏距离相似度

(4)阈值对比子模块;阈值对比子模块,如果该片段的比对结果满足相似度阈值,则该片段就属于该形态;

(5)排序并输出结果子模块;排序并输出结果子模块找到相似度最高的中心并推送到前端。

实施例4:本发明还提出股票形态库生成及形态库实时匹配的方法在金融证券行业量化分析方面的应用。股票形态库生成及形态库实时匹配的方法包括

股票股价形态库生成:使用历史股价信息,在制定时间尺度上将相同时间跨度,类似形态的股票片段聚为一类;使用不同时间跨度,对全部股票数据进行检索,得到该时间尺度下的一个形态库;

以及,形态库实时匹配:对所有股票的数据进行监控,通过形态比对算法与形态库中的形态进行匹配,提示相似度最高的形态类型,分钟级形态匹配每分钟更新一次匹配结果,天级匹配则在每天结束后匹配。

实施例5:本发明还提出股票形态库生成及形态库实时匹配系统在金融证券行业量化分析方面的应用。股票形态库生成及形态库实时匹配系统包括

股票股价形态库生成模块:使用历史股价信息,在制定时间尺度上将相同时间跨度,类似形态的股票片段聚为一类;使用不同时间跨度,对全部股票数据进行检索,得到该时间尺度下的一个形态库;

以及,形态库实时匹配模块:对所有股票的数据进行监控,通过形态比对算法与形态库中的形态进行匹配,提示相似度最高的形态类型,分钟级形态匹配每分钟更新一次匹配结果,天级匹配则在每天结束后匹配。

本发明已由上述相关实施例加以描述,然而上述实施例仅为实施本发明的范例。必需指出的是,已揭露的实施例并未限制本发明的范围。相反地,在不脱离本发明的精神和范围内所作的更动与润饰,均属本发明的专利保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1