一种数据处理方法、装置及电子设备与流程

文档序号:29852393发布日期:2022-04-30 08:16阅读:240来源:国知局
一种数据处理方法、装置及电子设备与流程

1.本技术涉及数据技术领域,尤其涉及一种数据处理方法、装置及电子设备。


背景技术:

2.在金融领域中,任一股票、基金、指数等均可以称为资产,每个资产均对应有日收益率序列数据。为了分析资产之间的关系,需要对资产的数据进行量化,才能计算和分析各个资产之间的相似度,实现对资产的聚类,以便于对相似资产进行后续的分析和策略研究。
3.目前,通常以资产的日收益率序列数据表示资产,进而通过计算资产之间在日收益率序列上的相关系数,来获得资产之间的相似度。
4.但是,由于资产的日收益率序列本身具有随机性,可能存在日收益率缺失的情况,导致所获得到的相关系数具有较大的噪音,使得获得资产相似度的准确性较低。


技术实现要素:

5.有鉴于此,本技术提供一种数据处理方法、装置及电子设备,用以解决现有技术所获得的资产相似度的准确性较低的技术问题。如下:
6.一种数据处理方法,所述方法包括:
7.获得资产对象集合,所述资产对象集合中包含有多个资产对象,所述资产对象具有对象数据,所述资产对象以对象向量表示,所述对象向量中包含多个向量元素,所述向量元素具有初始元素值;
8.根据所述资产对象的对象数据,获得所述资产对象集合对应的对象相似矩阵,所述对象相似矩阵的矩阵元素为所述资产对象集合中任意两个所述资产对象之间的初始相似度;
9.根据所述对象相似矩阵中的矩阵元素,对所述资产对象的对象向量中的向量元素的初始元素值进行处理,以得到所述资产对象的对象向量中的经过优化的向量元素,所述对象向量中的向量元素用于获得其所属资产对象与其他资产对象之间的资产相似度。
10.上述方法,优选的,根据所述对象相似矩阵中的矩阵元素,对所述资产对象的对象向量中的向量元素的初始元素值进行处理,以得到所述资产对象的对象向量中的经过优化的向量元素,包括:
11.以所述对象相似矩阵中的矩阵元素中的初始相似度作为相似度误差函数的输入,利用所述相似度误差函数,对所述资产对象的对象向量中的向量元素的初始元素值进行优化处理,以得到所述资产对象的对象向量中的经过优化的向量元素;
12.其中,所述相似度误差函数至少以所述资产对象集合中的所有任意两个所述资产对象之间的相似度误差的和表示,其中,所述相似度误差函数中的所述资产对象之间的相似度误差至少以相应所述资产对象的对象向量之间的向量距离和相应所述资产对象之间的初始相似度表示。
13.上述方法,优选的,以所述对象相似矩阵中的矩阵元素中的初始相似度作为相似
度误差函数的输入,利用所述相似度误差函数,对所述资产对象的对象向量中的向量元素的初始元素值进行优化处理,包括:
14.以所述对象相似矩阵中的矩阵元素中的初始相似度作为相似度误差函数的输入,获得所述相似度误差函数针对所述资产对象的对象向量中的向量元素的初始元素值的第一输出函数值;
15.根据所述第一输出函数值,对所述资产对象的对象向量中的向量元素的初始元素值进行调整;
16.以所述对象相似矩阵中的矩阵元素中的初始相似度作为所述相似度误差函数的输入,获得所述相似度误差函数针对所述资产对象的对象向量中的向量元素的经过调整后的元素值的第二输出函数值;
17.至少根据所述第二输出函数值,对所述资产对象的对象向量中的向量元素的经过调整后的元素值进行调整,返回执行所述步骤:以所述对象相似矩阵中的矩阵元素中的初始相似度作为所述相似度误差函数的输入,获得所述相似度误差函数针对所述资产对象的对象向量中的向量元素的经过调整后的元素值的第二输出函数值,直到所述资产对象的对象向量中的向量元素经过调整后的元素值满足迭代收敛条件,以得到所述资产对象的对象向量中的经过优化的向量元素;
18.其中,所述迭代收敛条件为:所述资产对象的对象向量中的向量元素经过调整后的元素值的变化量小于或等于变化阈值。
19.上述方法,优选的,所述相似度误差函数中的两个所述资产对象之间的相似度误差中,两个所述资产对象之间的初始相似度经过取对数处理;
20.所述相似度误差函数中的两个所述资产对象之间的相似度误差还以两个所述资产对象的对象向量各自对应的向量偏置项表示,所述向量偏置项与对其对应的对象向量中的向量元素相关;
21.所述相似度误差函数中的两个所述资产对象之间的相似度误差经过平方处理;
22.所述相似度误差函数中的两个所述资产对象之间的相似度误差经过加权处理。
23.上述方法,优选的,所述对象数据包含多个日期对应的收益率数据;
24.其中,所述对象相似矩阵的矩阵元素通过以下方式获得:
25.获得所述矩阵元素对应的两个所述资产对象的对象数据在每个所述日期上的收益率差值;
26.至少根据每个所述日期上的收益率差值,获得所述矩阵元素对应的两个所述资产对象的之间的初始相似度。
27.上述方法,优选的,至少根据每个所述日期上的收益率差值,获得所述矩阵元素对应的两个所述资产对象的之间的初始相似度,包括:
28.对所述矩阵元素对应的两个所述资产对象的对象数据在每个所述日期上的收益率差值分别进行处理,以得到每个所述日期上对应的相似度分量;
29.对所述相似度分量按照所述日期进行累加,以得到所述矩阵元素对应的两个所述资产对象的之间的初始相似度。
30.上述方法,优选的,对所述矩阵元素对应的两个所述资产对象的对象数据在每个所述日期上的收益率差值分别进行处理,以得到每个所述日期上对应的相似度分量,包括:
31.分别获得所述矩阵元素对应的两个所述资产对象的对象数据在每个所述日期上的收益率差值的绝对值;
32.对所述收益率差值的绝对值分别进行处理,以得到每个所述日期上对应的相似度分量,且每个所述日期上对应的相似度分量为大于或等于0的数值。
33.上述方法,优选的,所述方法还包括:
34.获得所述资产对象集合中任意多个所述资产对象的对象向量中的向量元素;
35.根据所述任意多个所述资产对象的对象向量中的向量元素,获得所述任意多个所述资产对象的对象向量之间的余弦相似度;以所述余弦相似度作为所述任意多个所述资产对象之间的资产相似度。
36.一种数据处理装置,所述装置包括:
37.对象获得单元,用于获得资产对象集合,所述资产对象集合中包含有多个资产对象,所述资产对象具有对象数据,所述资产对象以对象向量表示,所述对象向量中包含多个向量元素,所述向量元素具有初始元素值;
38.矩阵获得单元,用于根据所述资产对象的对象数据,获得所述资产对象集合对应的对象相似矩阵,所述对象相似矩阵的矩阵元素为所述资产对象集合中任意两个所述资产对象之间的初始相似度;
39.向量优化单元,用于根据所述对象相似矩阵中的矩阵元素,对所述资产对象的对象向量中的向量元素的初始元素值进行处理,以得到所述资产对象的对象向量中的经过优化的向量元素,所述对象向量中的向量元素用于获得其所属资产对象与其他资产对象之间的资产相似度。
40.一种电子设备,包括:
41.存储器,用于存储应用程序和所述应用程序运行所产生的数据;
42.处理器,用于执行所述应用程序,以实现:获得资产对象集合,所述资产对象集合中包含有多个资产对象,所述资产对象具有对象数据,所述资产对象以对象向量表示,所述对象向量中包含多个向量元素,所述向量元素具有初始元素值;根据所述资产对象的对象数据,获得所述资产对象集合对应的对象相似矩阵,所述对象相似矩阵的矩阵元素为所述资产对象集合中任意两个所述资产对象之间的初始相似度;根据所述对象相似矩阵中的矩阵元素,对所述资产对象的对象向量中的向量元素的初始元素值进行处理,以得到所述资产对象的对象向量中的经过优化的向量元素,所述对象向量中的向量元素用于获得其所属资产对象与其他资产对象之间的资产相似度。
43.从上述技术方案可以看出,本技术公开的一种数据处理方法、装置及电子设备中,利用资产对象的对象数据获得所属资产对象集合对应的对象相似矩阵,而对象相似矩阵中的矩阵元素为资产对象集合中任意两个资产对象之间的初始相似度,基于此,根据对象相似矩阵中的初始相似度,对表示资产对象的对象向量中的向量元素进行优化,由此,以优化后的向量元素组成的对象向量表示资产对象,进而就可以基于资产对象的对象向量来获得到资产对象之间的资产相似度。可见,本技术中在利用资产对象的对象数据获得到所有任意两个资产对象之间的初始相似度之后,利用初始相似度对向量化表示的所有资产对象的向量元素进行优化,由此,以优化有的对象向量表示资产对象,从而避免了仅依靠两个资产对象的收益率等数据获得的资产相似度准确率低的情况,通过经过优化的对象向量获得资
产对象之间的相似度,进而达到提高资产相似度的准确性的目的。
附图说明
44.为了更清楚地说明本技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
45.图1为本技术实施例一提供的一种数据处理方法的流程图;
46.图2-图4分别为本技术实施例一提供的一种数据处理方法的部分流程图;
47.图5为本技术实施例一提供的一种数据处理方法的另一流程图;
48.图6为本技术实施例二提供的一种数据处理装置的结构示意图;
49.图7为本技术实施例二提供的一种数据处理装置的另一结构示意图;
50.图8为本技术实施例三提供的一种电子设备的结构示意图;
51.图9为本技术实施例适用于资产相似度获取时的资产向量的示意图。
具体实施方式
52.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
53.参考图1,为本技术实施例一提供的一种数据处理方法的实现流程图,该方法可以适用于能够进行数据处理的电子设备中,如计算机或服务器等。本实施例中的技术方案主要用于通过资产对象的向量化表示,来提高基于向量所得到的资产相似度的准确性。
54.具体的,本实施例中的方法可以包含以下步骤:
55.步骤101:获得资产对象集合。
56.其中,资产对象集合中包含有多个资产对象,资产对象具有对象数据,这里的对象数据可以包含有多个日期上对应的收益率数据,具体可以以日收益率序列表示。
57.在本实施例中,对于资产对象集合中的每个资产对象均以对象向量表示,资产对象的对象向量中可以包含多个向量元素,每个向量元素对应于不同的向量维度,在每个向量维度上的向量元素的元素值可以相同或不同。另外,本实施例中对资产对象的对象向量中的向量元素设置有初始元素值。例如,本实施例中将资产对象的对象向量设置为100个向量维度,这100个向量维度上的向量元素的初始元素值通过随机算法计算获得。
58.步骤102:根据资产对象的对象数据,获得资产对象集合对应的对象相似矩阵,对象相似矩阵的矩阵元素为资产对象集合中任意两个资产对象之间的初始相似度。
59.其中,本实施例中可以对资产对象集合中任意两个资产对象的对象数据进行处理,从而获得资产对象集合中任意两个资产对象之间的初始相似度,进而再将这些初始相似度设置为对象相似矩阵中的矩阵元素。基于此,对象相似矩阵的行和列分别为资产对象集合中资产对象的总量,对象相似矩阵为对称矩阵。
60.以包含有n个资产对象的资产对象集合为例,本实施例中针对这n个资产对象构建
对象相似矩阵,也可以称为资产相似矩阵,可以以s表示,对象相似矩阵为大小为n*n的矩阵,n为资产对象的总量,该对象相似矩阵为对称矩阵,即第i行第j列的矩阵元素s[i,j]与第j行第i列的矩阵元素s[j,i]相同,其中,i不等于j。具体的,对象相似矩阵中的每个矩阵元素为根据该矩阵元素对应的两个资产对象的对象数据所获得到的这两个资产对象之间的初始相似度。
[0061]
步骤103:根据对象相似矩阵中的矩阵元素,对资产对象的对象向量中的向量元素的初始元素值进行处理,以得到资产对象的对象向量中的经过优化的向量元素。
[0062]
其中,对象向量中的向量元素用于获得其所属资产对象与其他资产对象之间的资产相似度。
[0063]
需要说明的是,由于某个资产对象的对象数据可能存在缺失,因此,基于对象数据所获得到的资产对象之间的初始相似度可能存在不准确的情况,因此,本实施例中以对象向量表示资产对象,并使用资产对象之间的初始相似度对对象向量中的向量元素的初始元素值进行优化处理,由此,以向量元素经过优化的对象向量表示资产对象,基于此,基于经过优化的向量元素再去获得到的资产对象之间的资产相似度相对于初始相似度具有更高的准确性。
[0064]
具体的,本实施例中可以以资产对象集合中的任意两个资产对象的对象向量构建一个向量相似度之后,基于这个向量相似度与相应的初始相似度构建相似度误差函数,进而对该相似度误差函数所输出的任意两个资产对象之间的相似度在向量相似度和初始像素度之间的误差值进行最小化处理,由此,获得到元素值经过优化的向量元素所组成的对象向量,以优化有的对象向量表征相应的资产对象。
[0065]
由上述方案可知,本技术实施例一提供的一种数据处理方法中,利用资产对象的对象数据获得所属资产对象集合对应的对象相似矩阵,而对象相似矩阵中的矩阵元素为资产对象集合中任意两个资产对象之间的初始相似度,基于此,根据对象相似矩阵中的初始相似度,对表示资产对象的对象向量中的向量元素进行优化,由此,以优化后的向量元素组成的对象向量表示资产对象,进而就可以基于资产对象的对象向量来获得到资产对象之间的资产相似度。可见,本实施例中在利用资产对象的对象数据获得到所有任意两个资产对象之间的初始相似度之后,利用初始相似度对向量化表示的所有资产对象的向量元素进行优化,由此,以优化有的对象向量表示资产对象,从而避免了仅依靠两个资产对象的收益率等数据获得的资产相似度准确率低的情况,通过经过优化的对象向量获得资产对象之间的相似度,进而达到提高资产相似度的准确性的目的。
[0066]
在一种实现方式中,步骤103中在根据对象相似矩阵中的矩阵元素,对资产对象的对象向量中的向量元素的初始元素值进行处理时,具体可以通过以下方式实现:
[0067]
以对象相似矩阵中的矩阵元素中的初始相似度作为相似度误差函数的输入,利用相似度误差函数,对资产对象的对象向量中的向量元素的初始元素值进行优化处理,以得到资产对象的对象向量中的经过优化的向量元素;
[0068]
其中,相似度误差函数至少以资产对象集合中的所有任意两个资产对象之间的相似度误差的和表示,其中,相似度误差函数中的资产对象之间的相似度误差至少以相应资产对象的对象向量之间的向量距离和相应资产对象之间的初始相似度表示。
[0069]
具体的,相似度误差函数中包含有多个误差项,这些误差项的和组成相似度误差
函数,而每个误差项分别为资产对象集合中的所有任意两个资产对象之间的相似度误差。具体的,每个误差项由相应资产对象的对象向量之间的向量距离和相应资产对象之间的初始相似度确定,其中的资产对象的对象向量之间的向量距离可以理解为资产对象的对象向量之间的向量相似度,其中的资产对象之间的初始相似度可以从对象相似矩阵中对应的矩阵元素中获得。
[0070]
因此,相似度误差函数的输出函数值表征资产对象集合中所有的任意两个资产对象在向量相似度和初始相似度之间的误差总和。
[0071]
由于相似度误差函数所包含的误差项中的向量距离是以相应资产对象的对象向量中的向量元素的初始元素值表示的,且相似度误差函数所包含的误差项中的初始相似度是确定的,基于此,本实施例中可以利用对象相似矩阵中的初始相似度对相似度误差函数的输出进行最小化,进而通过多次迭代的优化处理,逐步对资产对象的对象向量中的向量元素的元素值进行调整,从而得到所有的任意两个资产对象的相似度误差最小时的经过优化后的向量元素的元素值。由此,本实施例中就可以通过经过优化的对象向量获得资产对象之间的相似度,进而达到提高资产相似度的准确性的目的。
[0072]
以下对利用相似度误差函数,对资产对象的对象向量中的向量元素的初始元素值进行优化处理的过程进行说明,如图2中所示:
[0073]
步骤201:以对象相似矩阵中的矩阵元素中的初始相似度作为相似度误差函数的输入,获得相似度误差函数针对资产对象的对象向量中的向量元素的初始元素值的第一输出函数值。
[0074]
其中,本实施例中将对象相似矩阵中的所有矩阵元素中的初始相似度输入到相似度误差函数的误差项中,还将所有资产对象的对象向量中的向量元素的初始元素值输入到相似度误差函数的误差项中,由此,对相似度误差函数进行计算,得到相似度误差函数的第一输出函数值。
[0075]
步骤202:根据第一输出函数值,对资产对象的对象向量中的向量元素的初始元素值进行调整。
[0076]
其中,本实施例中可以根据第一输出函数值的大小,对资产对象的对象向量中的向量元素的初始元素值进行增加或减小处理,由此,得到资产对象的对象向量中的向量元素的经过调整后的元素值。
[0077]
步骤203:以对象相似矩阵中的矩阵元素中的初始相似度作为相似度误差函数的输入,获得相似度误差函数针对资产对象的对象向量中的向量元素的经过调整后的元素值的第二输出函数值。
[0078]
其中,本实施例中可以将对象相似矩阵中的所有矩阵元素中的初始相似度输入到相似度误差函数的误差项中,还将所有资产对象的对象向量中的向量元素的经过调整后的元素值输入到相似度误差函数的误差项中,由此,再次对相似度误差函数进行计算,得到相似度误差函数的第二输出函数值。
[0079]
步骤204:至少根据第二输出函数值,对资产对象的对象向量中的向量元素的经过调整后的元素值进行调整,返回执行步骤203,再次以对象相似矩阵中的矩阵元素中的初始相似度作为相似度误差函数的输入,获得相似度误差函数针对资产对象的对象向量中的向量元素的经过调整后的元素值的第二输出函数值,直到资产对象的对象向量中的向量元素
经过调整后的元素值满足迭代收敛条件,以得到资产对象的对象向量中的经过优化的向量元素。
[0080]
其中,本实施例中可以根据第二输出函数值的大小,对资产对象的对象向量中的向量元素的初始元素值进行增加或减小处理,由此,得到资产对象的对象向量中的向量元素的经过调整后的元素值。
[0081]
在一种优化的处理方式中,本实施例中可以根据第二输出函数值的大小,参考前一次对资产对象的对象向量中向量元素的调整方式,对资产对象的对象向量中的向量元素的经过调整后的元素值再次进行增加或减小处理,由此,得到资产对象的对象向量中的向量元素的重新经过调整后的元素值。
[0082]
需要说明的是,迭代收敛条件为:资产对象的对象向量中的向量元素经过调整后的元素值的变化量小于或等于变化阈值。
[0083]
其中,这里的元素值的变化量可以理解为:资产对象的对象向量中的向量元素经过调整后的元素值与前一次调整后的元素值进行相减所得到的差值,以该差值表征资产对象的对象向量中的向量元素经过调整后的元素值的变化量。
[0084]
也就是说,本实施例中使用对象相似矩阵中的矩阵元素中的初始相似度,通过多次对相似度误差函数所包含的误差项中的资产对象的对象向量中向量元素进行迭代优化,使得资产对象集合中所有任意两个资产对象在向量相似度和初始相似度上的误差总和最小,由此得到最优的资产对象的对象向量。
[0085]
例如,以vi表示第i个资产对象的对象向量,以vj表示第j个资产对象的对象向量,vi的转置再乘以vj表示第i个资产对象和第j个资产对象之间的向量相似度,以对象相似矩阵中的矩阵元素s
ij
表示第i个资产对象和第j个资产对象之间的初始相似度,此时,相似度误差函数中第i个资产对象和第j个资产对象之间的误差项以vi的转置再乘以vj后再减去s
ij
表示,由此,以对象相似矩阵中的矩阵元素s
ij
为相似度误差函数的输入,以vi和vj中的向量元素的初始元素值为初始,通过多次的迭代遍历,对vi和vj中的向量元素的元素值进行优化,直到vi和vj中的向量元素的元素值的变化量低于阈值。
[0086]
进一步的,为了加快迭代优化以及提高迭代优化的准确性,本实施例中对相似度误差函数进行以下任意一项或任意多项的调整:
[0087]
在一种实现方式中,相似度误差函数中的两个资产对象之间的相似度误差中,两个资产对象之间的初始相似度经过取对数处理。例如,相似度误差函数中第i个资产对象和第j个资产对象之间的误差项以vi的转置再乘以vj后再减去对s
ij
取对数所得到的数值表示;
[0088]
在一种实现方式中,相似度误差函数中的两个资产对象之间的相似度误差还以两个资产对象的对象向量各自对应的向量偏置项表示,向量偏置项与对其对应的对象向量中的向量元素相关。例如,vi的向量偏置项以bi表示,vj的向量偏置项以bj表示,相似度误差函数中的第i个资产对象和第j个资产对象之间的误差项以以下表示:vi的转置再乘以vj后,加上bi和bj后,再减去对s
ij
取对数所得到的数值;
[0089]
在一种实现方式中,相似度误差函数中的两个资产对象之间的相似度误差经过平方处理。例如,相似度误差函数中对第i个资产对象和第j个资产对象之间的误差项取平方后作为误差项;
[0090]
在一种实现方式中,相似度误差函数中的两个资产对象之间的相似度误差经过加权处理。例如,相似度误差函数中对第i个资产对象和第j个资产对象之间的误差项乘以第i个资产对象和第j个资产对象之间的对应的权重值作,而第i个资产对象和第j个资产对象之间的对应的权重值由第i个资产对象和第j个资产对象之间的初始相似度s
ij
确定。
[0091]
例如,第i个资产对象和第j个资产对象之间的对应的权重值通过以下方式获得:
[0092]
在第i个资产对象和第j个资产对象之间的初始相似度s
ij
小于预设的相似度总和最大值的情况下,先将相似度总和最大值对预设值α取指数,然后将s
ij
除以将相似度总和最大值对预设值α取指数所得到的数值,由此得到第i个资产对象和第j个资产对象之间的对应的权重值;
[0093]
在第i个资产对象和第j个资产对象之间的初始相似度s
ij
小于预设的相似度总和最大值的情况下,将1作为第i个资产对象和第j个资产对象之间的对应的权重值。
[0094]
其中,相似度总和最大值基于资产对象的对象数据所涉及到的日期数量确定。例如,如果对象数据中包含有20个日期的收益率数据,那么相似度总和最大值可以设置为20或其左右的数值,等等。
[0095]
具体的,相似度误差函数以以下的公式(1)表示:
[0096][0097]
其中,f(s
ij
)为第i个资产对象和第j个资产对象之间的对应的权重值,以如下公式(2)表示:
[0098][0099]
其中,s
max
为相似度总和最大值,这里的s
max
也可以为其他的取值,具体与日期数量相关,α为预设值。
[0100]
在一种实现方式中,资产对象的对象数据可以包含多个日期对应的收益率数据。其中,收益率数据通常为小于0.1的数值。
[0101]
基于此,步骤102中的对象相似矩阵的矩阵元素可以通过以下方式获得,如图3中所示:
[0102]
步骤301:获得矩阵元素对应的两个资产对象的对象数据在每个日期上的收益率差值。
[0103]
其中,本实施例中可以将矩阵元素对应的两个资产对象的对象数据中在每个日期上的收益率数据进行相减,以得到在每个日期上的收益率差值。
[0104]
例如,以r
i,t
表示第i个资产对象在第t个日期上的收益率数据,以r
j,t
表示第j个资产对象在第t个日期上的收益率数据,第t个日期上的收益率差值以r
i,t
减去r
j,t
表示。
[0105]
步骤302:至少根据每个日期上的收益率差值,获得矩阵元素对应的两个资产对象的之间的初始相似度。
[0106]
其中,本实施例中可以通过对收益率差值进行数值计算,进而得到矩阵元素对应的两个资产对象的之间的初始相似度。具体实现方式如下图4中所示:
[0107]
步骤401:对矩阵元素对应的两个资产对象的对象数据在每个日期上的收益率差值分别进行处理,以得到每个日期上对应的相似度分量。
[0108]
其中,本实施例中分别对每个日期上的收益率差值进行数值计算,从而得到每个日期上对应的相似度分量,而相似度分量需要为大于或等于0的数值。基于此,步骤401中可以首先分别获得矩阵元素对应的两个资产对象的对象数据在每个日期上的收益率差值的绝对值,例如,对r
i,t
减去r
j,t
所得到的差值取绝对值;之后,对每个日期上对应的收益率差值的绝对值分别进行处理,以使得得到的每个日期上对应的相似度分量为大于或等于0的数值。
[0109]
具体的,首先对每个日期上的收益率差值的绝对值乘以调整系数,以提高绝对值的数量级,之后,用1减去乘以调整系数后的绝对值,最后,对用户1减去乘以调整系数后的绝对值是否大于0进行判断,如果大于0或等于0,那以用户1减去乘以调整系数后的绝对值所得到的数值作为相应日期上对应的相似度分量,如果小于0,那么,以0作为相应日期上对应的相似度分量。
[0110]
例如,由于收益率数据为小于0.1的数值,因此,在得到差值绝对值之后,为了提高准确性,首先将r
i,t
减去r
j,t
所得到的差值取绝对值乘以一个调整系数,如乘以10,以提高差值绝对值的数量级,之后,用1减去乘以10之后的绝对值,再在0和用1减去乘以10之后的绝对值后得到的差值中选取最大值,作为第t个日期上的相似度分量。
[0111]
步骤402:对相似度分量按照日期进行累加,以得到矩阵元素对应的两个资产对象的之间的初始相似度。
[0112]
具体的,本实施例中将所有日期上的相似度分量进行累加,由此得到该矩阵元素,即相应两个资产对象之间的初始相似度。
[0113]
例如,将第i个资产对象和第j个资产对照之间在1-20个日期上各自对应的相似度分量进行累加,得到第i个资产对象和第j个资产对象之间的初始相似度。
[0114]
具体的,矩阵元素中的初始相似度以s
ij
以如下公式(3)表示:
[0115][0116]
其中,t从1开始,且t为日期的总数,这里的调整系数10也可以取其他数值。
[0117]
可见,本技术的实施例中利用资产对象在多个日期上的收益率数据获得所有任意两个资产对象之间的初始相似度之后,利用初始相似度对向量化表示的所有资产对象的向量元素进行优化,由此,以优化有的对象向量表示资产对象,区别于现有技术中仅依靠两个资产对象的收益率获得资产对象之间的资产相似度的情况,本技术实施例中没有忽略其他资产对象的收益率对获得的资产相似度的影响,而是将所有资产对象的收益率都用于对资产对象的对象向量的优化计算中,进而通过经过优化的对象向量获得资产对象之间的相似度,避免忽略其他资产对象的收益率对资产相似度计算的影响或者收益率缺失所导致的资产相似度准确性低的缺陷,由此达到提高资产相似度的准确性的目的。
[0118]
在一种实现方式中,在步骤103之后,本实施例中的方法还可以包括以下步骤,如图5中所示:
[0119]
步骤104:获得资产对象集合中任意多个资产对象的对象向量中的向量元素。
[0120]
具体的,本实施例中对任意多个资产对象的对象向量中的向量元素的经过优化后的元素值进行获取。
[0121]
步骤105:根据任意多个资产对象的对象向量中的向量元素,获得任意多个资产对象的对象向量之间的余弦相似度;以余弦相似度作为任意多个资产对象之间的资产相似度。
[0122]
其中,本实施例中可以通过对任意多个资产对象的对象向量按照所包含的向量元素进行余弦相似度计算,以所得到的余弦相似度表征任意多个资产对象之间的资产相似度。
[0123]
需要说明的是,本实施例中可以通过对任意两个资产对象的对象向量进行余弦相似度的计算,以得到这两个资产对象之间的资产相似度;或者,本实施例中可以通过对资产对象集合中的所有资产对象的对象向量进行余弦相似度的计算,以得到资产对象集合中的所有资产对象之间的资产相似度。可见,本技术中通过向量化表示资产对象,进而通过向量之间的余弦相似度的计算来实现全局上任意多个资产对象之间的相似度。进一步的,本实施例中通过基于收益率数据所得到的初始相似度对资产对象的对象向量的优化,实现最小化所有资产对象之间的相似度误差,由此从全局上优化资产之间的相似度,从而提高相似度的准确性。
[0124]
参考图6,为本技术实施例二提供的一种数据处理装置的结构示意图,该装置,该装置可以配置在能够进行数据处理的电子设备中,如计算机或服务器等。本实施例中的技术方案主要用于通过资产对象的向量化表示,来提高基于向量所得到的资产相似度的准确性。
[0125]
具体的,本实施例中的装置可以包含有如下单元:
[0126]
对象获得单元601,用于获得资产对象集合,资产对象集合中包含有多个资产对象,资产对象具有对象数据,资产对象以对象向量表示,对象向量中包含多个向量元素,向量元素具有初始元素值;
[0127]
矩阵获得单元602,用于根据资产对象的对象数据,获得资产对象集合对应的对象相似矩阵,对象相似矩阵的矩阵元素为资产对象集合中任意两个资产对象之间的初始相似度;
[0128]
向量优化单元603,用于根据对象相似矩阵中的矩阵元素,对资产对象的对象向量中的向量元素的初始元素值进行处理,以得到资产对象的对象向量中的经过优化的向量元素,对象向量中的向量元素用于获得其所属资产对象与其他资产对象之间的资产相似度。
[0129]
由上述方案可知,本技术实施例二的一种数据处理装置中,利用资产对象的对象数据获得所属资产对象集合对应的对象相似矩阵,而对象相似矩阵中的矩阵元素为资产对象集合中任意两个资产对象之间的初始相似度,基于此,根据对象相似矩阵中的初始相似度,对表示资产对象的对象向量中的向量元素进行优化,由此,以优化后的向量元素组成的对象向量表示资产对象,进而就可以基于资产对象的对象向量来获得到资产对象之间的资产相似度。可见,本实施例中在利用资产对象的对象数据获得到所有任意两个资产对象之间的初始相似度之后,利用初始相似度对向量化表示的所有资产对象的向量元素进行优化,由此,以优化有的对象向量表示资产对象,从而避免了仅依靠两个资产对象的收益率等数据获得的资产相似度准确率低的情况,通过经过优化的对象向量获得资产对象之间的相
似度,进而达到提高资产相似度的准确性的目的。
[0130]
在一种实现方式中,向量优化单元603具体用于:以对象相似矩阵中的矩阵元素中的初始相似度作为相似度误差函数的输入,利用相似度误差函数,对资产对象的对象向量中的向量元素的初始元素值进行优化处理,以得到资产对象的对象向量中的经过优化的向量元素;
[0131]
其中,相似度误差函数至少以资产对象集合中的所有任意两个资产对象之间的相似度误差的和表示,其中,相似度误差函数中的资产对象之间的相似度误差至少以相应资产对象的对象向量之间的向量距离和相应资产对象之间的初始相似度表示。
[0132]
进一步的,向量优化单元603具体用于:以对象相似矩阵中的矩阵元素中的初始相似度作为相似度误差函数的输入,获得相似度误差函数针对资产对象的对象向量中的向量元素的初始元素值的第一输出函数值;根据第一输出函数值,对资产对象的对象向量中的向量元素的初始元素值进行调整;以对象相似矩阵中的矩阵元素中的初始相似度作为相似度误差函数的输入,获得相似度误差函数针对资产对象的对象向量中的向量元素的经过调整后的元素值的第二输出函数值;至少根据第二输出函数值,对资产对象的对象向量中的向量元素的经过调整后的元素值进行调整,返回执行步骤:以对象相似矩阵中的矩阵元素中的初始相似度作为相似度误差函数的输入,获得相似度误差函数针对资产对象的对象向量中的向量元素的经过调整后的元素值的第二输出函数值,直到资产对象的对象向量中的向量元素经过调整后的元素值满足迭代收敛条件,以得到资产对象的对象向量中的经过优化的向量元素;
[0133]
其中,迭代收敛条件为:资产对象的对象向量中的向量元素经过调整后的元素值的变化量小于或等于变化阈值。
[0134]
优选的,相似度误差函数中的两个资产对象之间的相似度误差中,两个资产对象之间的初始相似度经过取对数处理;
[0135]
相似度误差函数中的两个资产对象之间的相似度误差还以两个资产对象的对象向量各自对应的向量偏置项表示,向量偏置项与对其对应的对象向量中的向量元素相关;
[0136]
相似度误差函数中的两个资产对象之间的相似度误差经过平方处理;
[0137]
相似度误差函数中的两个资产对象之间的相似度误差经过加权处理。
[0138]
在一种实现方式中,对象数据包含多个日期对应的收益率数据;
[0139]
基于此,矩阵获得单元602通过以下方式获得对象相似矩阵的矩阵元素:获得矩阵元素对应的两个资产对象的对象数据在每个日期上的收益率差值;至少根据每个日期上的收益率差值,获得矩阵元素对应的两个资产对象的之间的初始相似度。
[0140]
基于此,矩阵获得单元602在至少根据每个日期上的收益率差值,获得矩阵元素对应的两个资产对象的之间的初始相似度时,具体用于:对矩阵元素对应的两个资产对象的对象数据在每个日期上的收益率差值分别进行处理,以得到每个日期上对应的相似度分量,例如,分别获得矩阵元素对应的两个资产对象的对象数据在每个日期上的收益率差值的绝对值,再对收益率差值的绝对值分别进行处理,以得到每个日期上对应的相似度分量,且每个日期上对应的相似度分量为大于或等于0的数值;之后,对相似度分量按照日期进行累加,以得到矩阵元素对应的两个资产对象的之间的初始相似度。
[0141]
在一种实现方式中,本实施例中的装置还可以包含以下单元,如图7中所示:
[0142]
相似度获取单元604,用于获得资产对象集合中任意多个资产对象的对象向量中的向量元素;根据任意多个资产对象的对象向量中的向量元素,获得任意多个资产对象的对象向量之间的余弦相似度;以余弦相似度作为任意多个资产对象之间的资产相似度。
[0143]
需要说明的是,本实施例中各单元的具体实现可以参考前文中的相应内容,此处不再详述。
[0144]
参考图8,为本技术实施例三提供的一种电子设备的结构示意图,该电子设备可以为能够进行数据处理的电子设备,如计算机或服务器等。本实施例中的技术方案主要用于通过资产对象的向量化表示,来提高基于向量所得到的资产相似度的准确性。
[0145]
具体的,本实施例中的电子设备可以包含如下结构:
[0146]
存储器801,用于存储应用程序和应用程序运行所产生的数据;
[0147]
处理器802,用于执行应用程序,以实现:获得资产对象集合,资产对象集合中包含有多个资产对象,资产对象具有对象数据,资产对象以对象向量表示,对象向量中包含多个向量元素,向量元素具有初始元素值;根据资产对象的对象数据,获得资产对象集合对应的对象相似矩阵,对象相似矩阵的矩阵元素为资产对象集合中任意两个资产对象之间的初始相似度;根据对象相似矩阵中的矩阵元素,对资产对象的对象向量中的向量元素的初始元素值进行处理,以得到资产对象的对象向量中的经过优化的向量元素,对象向量中的向量元素用于获得其所属资产对象与其他资产对象之间的资产相似度。
[0148]
由上述方案可知,本技术实施例三提供的一种电子设备中,利用资产对象的对象数据获得所属资产对象集合对应的对象相似矩阵,而对象相似矩阵中的矩阵元素为资产对象集合中任意两个资产对象之间的初始相似度,基于此,根据对象相似矩阵中的初始相似度,对表示资产对象的对象向量中的向量元素进行优化,由此,以优化后的向量元素组成的对象向量表示资产对象,进而就可以基于资产对象的对象向量来获得到资产对象之间的资产相似度。可见,本实施例中在利用资产对象的对象数据获得到所有任意两个资产对象之间的初始相似度之后,利用初始相似度对向量化表示的所有资产对象的向量元素进行优化,由此,以优化有的对象向量表示资产对象,从而避免了仅依靠两个资产对象的收益率等数据获得的资产相似度准确率低的情况,通过经过优化的对象向量获得资产对象之间的相似度,进而达到提高资产相似度的准确性的目的。
[0149]
以下以股票、基金、指数等多个资产的相似度获取为例,对本技术的技术方案进行详细的举例说明:
[0150]
首先,资产的相似度分析通常有两大类实现方案:定量分析和定性分析,但是这两种方案都有一些缺陷:
[0151]
(1)定量分析的方法:现有的做法一般是计算两个资产一段时间内收益率序列的相关系数,缺点是资产的收益率序列经常会有缺失值,导致系数不够准确;并且这种方法中在计算两个资产之间的相关系数作为相似度时,只考虑了这两个资产本身的收益率序列,忽略了与这两个资产相关的其他资产的收益率序列对这两个资产之间的相关系数的影响,导致这两个资产之间的相关系数不准确。
[0152]
(2)定性分析的方法:以股票举例,研究员会从公司所属的行业、主营业务等角度去找出相似的公司股票,但是这种方法需要对每个公司进行单独分析,而人的精力是有限的,很难在有限时间内覆盖全部股票。
[0153]
有鉴于此,本技术的技术方案中通过将资产用一个向量来表征,资产之间相似度则以两个向量之间的余弦相似度来表征,优化目标为最小化所有资产间的相似度误差,以此从全局上去优化资产间相似度,而避免了相关系数这种仅考虑两个资产收益率序列的方法,并且本技术的技术方案在实现相似度获取时对收益率缺失不敏感。具体实现方案如下步骤所示:
[0154]
(1)确定资产集合,即为前文中的资产对象集合,也就是确定要对哪些资产给出向量化表示,这里的资产就是前文中的资产对象。其中,在本技术的技术方案中资产可以包括所有共同基金、a股股票、中信指数、申万指数和万得指数中的任意多个。
[0155]
(2)收集每个资产过去一段时间窗口内的日收益率序列,这个时间窗口的大小可根据需要调整,例如可以选择一年或者一个月。时间越长则资产对应的向量刻画的是一个相对长期的资产间关系,时间越短则刻画的是较短期内的资产间关系。
[0156]
(3)构建资产相似矩阵s,也就是前文中的对象相似矩阵,该相似矩阵是大小为n*n的矩阵,其中n是资产的数量,矩阵中每个元素是在样本内得到的每两个资产的相似度,样本内指的就是步骤(2)中确定的时间窗口内的收益率序列。因此该矩阵是一个对称矩阵,即s[i,j]=s[j,i],i≠j;
[0157]
具体的,矩阵中每一个矩阵元素的计算方法可以参考公式(3)。其中的s
ij
代表的就是资产i和资产j的观测相似度,r
i,t
表示资产i在第t日的收益率,t是所选取的时间窗口大小。按照公式(3)即可构建出相似矩阵s。
[0158]
(4)资产向量的训练。基于步骤(3)构建出的相似矩阵s训练资产向量,定义资产i的向量是vi(向量vi的维度可以选取100,不同场景下可以进行调整),则训练的优化目标参考公式(1)和公式(2)及相应的内容。
[0159]
其中,训练方法可以采用梯度下降算法,算法迭代至收敛即可得到资产i的向量vi。
[0160]
可见,本技术的技术方案中通过提出一套算法,对资产进行向量化表示,即用向量来表征一个资产,只要是有每日价格数据的资产均可纳入到本技术的向量化算法框架内。其中,这种向量隐含了资产的收益波动特性以及行业板块信息等等,即收益波动相近的资产,其对应的向量距离是相近的,同一行业或者同一板块的资产其对应的向量距离也是相近的。基于资产向量的这种特性,就可以计算和分析各个资产之间的相似度、对资产进行聚类,将相似资产聚集在一起进行后续的分析和策略研究、并且可以将资产向量看做一系列因子作为监督学习模型的输入变量。
[0161]
图9中为对资产向量进行了可视化,即将高维的资产向量降维到三维空间,每一个点代表一个资产,点聚集的区域代表了这些资产是非常相似的,所以在空间中产生了聚集,并且相同行业/板块或者相似波动特性的资产在空间中的距离也是相近的。
[0162]
综上,本技术的技术方案使用向量化技术对资产进行表征和刻画,是一种创新型的分析资产间关系的方法,通过实证研究发现在多个场景下资产相似度的刻画效果优于传统的定量方法。另外,本技术的技术方案中提出的资产向量化方法是一套很灵活的算法框架,在不同场景下需要从不同的角度去刻画和分析资产间相似性,因此可以从不同的数据视角去构建相似矩阵s,比如,除了本技术提到的用收益率数据构建相似矩阵s,还可以用资产的基本面数据或其他数据去构建相似矩阵s。即不同的相似矩阵s的构建方法,代表着不
同的资产相似度刻画视角。同时,本技术的技术方案无需人工干预,因此可以实现自动化的定期更新资产向量,因为不同时间窗口下,资产间的相似性是不同的,通过本技术的技术方案可以用定期更新的方式跟踪最新的资产间关系。
[0163]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0164]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0165]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0166]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1