基于多模态感知的科技大数据分析技术

文档序号:29435593发布日期:2022-03-30 08:35阅读:425来源:国知局
基于多模态感知的科技大数据分析技术

1.本发明涉及大数据分析技术领域,特别涉及一种用于多模态科技大数据聚类分析的方法。


背景技术:

2.科技发展日新月异,对于科技大数据的分析具有重要价值。通过对科技大数据进行聚类分析,有助于迅速发现重点研究话题、时刻掌握科技发展方向。而科技大数据主要为多模态数据,包括图像、文字、语音、视频片段等。对于多模态大数据的聚类分析目前主要有两种方法。一种方法是基于图划分,比如二部图算法,通过优化一个统一的目标函数进行多模态大数据的聚类。但因为需要求解特征分解而比较低效。另一种方法是基于非正定矩阵分解,比如ss-nmf,通过在语义空间中揭示不同对象之间的关系来进行多模态数据聚类分析,但是计算复杂度高,不适合大规模数据的处理。
3.本发明提出一种基于多模态感知的科技大数据分析方法如图1所示。将科技大数据按模态进行分组,分别使用不同的深度无监督模型学习,再将学习到的不同模态数据的特征向量转化为张量,最后通过改进的cfs算法进行聚类分析。


技术实现要素:

4.本发明所要解决的技术问题在于针对上述现有技术中的不足,提出一种基于多模态感知的科技大数据聚类分析方法。通过深度无监督模型sda学习到多模态数据的特征向量,再将同一数据对象的不同模态向量通过向量外积转化为张量,最后通过改进的cfs算法进行聚类分析。
5.为解决上述技术问题,本发明采用的技术方案是:一种基于多模态信息感知的科技大数据分析方法,包括以下步骤:
6.1)使用sda子网络分别提取各个模态数据特征:
[0007][0008]
z=s(w

h+b

)
ꢀꢀꢀ
(2)
[0009]
其中x为原始数据,qd(
·
)为噪声函数,用来污染原始数据。
[0010]
sda网络是逐层训练的,通过最小化式(3)来更新网络参数:
[0011][0012]
2)将从sda得到的相同数据对象不同模态数据的特征向量通过向量外积得到特征张量:
[0013]
如果一个数据对象有n个不同模态数据(如图像、文字、视频片段等),可由式(4)得到张量:
[0014]
[0015]
其中,为1)中sda子网络学习到的各个模态数据的特征。
[0016]
3)对2)中得到的特征张量使用改进的cfs算法进行聚类分析,聚类中心为具有最大γ值的对象,γ表示为:
[0017]
γi=ρi×
δiꢀꢀ
(5)
[0018]
其中ρi表示第i个对象的局部密度,δi表示第i个对象与其他具有更高局部密度的对象的最小距离。
[0019]
优选的是,
[0020]
ρi=∑jχ(d
ij-dc)
ꢀꢀ
(6)
[0021][0022][0023]
其中,dc为截断距离,优选的是,dc设置为任意两个对象最大距离的2%。d
ij
表示第i个对象和第j个对象的距离。
[0024]
优选的是,d
ij
可由下式得到:
[0025][0026]
由于cfs算法并不能处理张量,本发明将得到的张量映射到相应的向量空间。优选的是,通过式(10)转化为x
l

[0027]
附图说明
[0028]
图1为本发明的一种实施例中的输入与输出网络结构图。
具体实施方式
[0029]
下面结合实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
[0030]
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它网络或其组合的存在或添加。
[0031]
本实施例的一种基于多模态数据的科技大数据聚类分析方法,包括以下步骤:
[0032]
1)准备好数据集x∈r
p
[0033]
2)将数据按照模态类型进行分组,分别进入不同的sda子网络学习,每个sda子网络都有不同的网络结构以适应不同模态数据的特征提取需求。
[0034]
3)为避免网络过拟合,使用噪声函数qd(
·
)来污染数据集x得到
[0035][0036]
4)计算sda子网络输出:
[0037][0038]
z=s(w

h+b

)
[0039]
5)逐层更新每个sda子网络的参数θ={w
(1)
,b
(1)
;w
(2)
,b
(2)
},通过最小化式(3)
[0040][0041]
6)通过向量外积,将sda学习到的同一数据对象的不同模态数据的特征转化为张量:
[0042][0043]
其中,为sda子网络学习到的特征
[0044]
7)将张量通过式(10)转化为x
l

[0045][0046]
8)根据下式计算d
ij
,δi,ρi。
[0047][0048][0049][0050]
9)根据下式计算聚类中心。
[0051]
γi=ρi×
δi[0052]
10)输出聚类分析结果。
[0053]
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节。


技术特征:
1.一种用于科技大数据分析的方法,其特征在于,包括以下步骤:1)准备好数据集x∈r
p
,将数据的类型按照模态进行分组,分别进入不同的sda子网络学习,得到相应的特征:z=s(w

h+b

)2)通过向量外积,将sda学习到的同一数据对象的不同模态数据的特征转化为张量:其中,为sda子网络学习到的特征;3)将张量展开成向量:4)根据下式计算d
ij
,δ
i
,ρ
i
:::5)根据下式计算聚类中心:γ
i
=ρ
i
×
δ
i
6)输出聚类分析结果。2.根据权利要求1所述的用于科技大数据分析的方法,其特征在于,用于提取多模态数据特征的深度无监督模型为sda网络。3.根据权利要求1所述的用于科技大数据分析的方法,其特征在于,使用向量外积的方法将各模态信息融合为张量。4.根据权利要求1所述的用于科技大数据分析的方法,其特征在于,使用下式将张量展开为向量:5.根据权利要求1所述的用于科技大数据分析的方法,其特征在于,根据下式计算d
ij
,δ
i
,ρ
i
:::

技术总结
本发明公开了一种基于多模态感知的科技大数据分析方法,该方法通过使用改进的CFS算法对深度无监督网络学习到的多模态数据特征进行聚类分析来实现。该方法将科技大数据的不同模态信息按模态类型进行分组,分别输入不同的SDA子网络进行学习,得到相应的特征向量。再将同一对象的不同模态信息通过向量外积进行组合,得到每一个对象的特征张量,尽可能的保留了各个模态的信息。最后将特征张量展开成相应的向量,使用CFS算法进行聚类分析。使用CFS算法进行聚类分析。使用CFS算法进行聚类分析。


技术研发人员:黄典 彭德中 王骞 刘杰 张利君 银大伟 蒋瑞 付俊英
受保护的技术使用者:四川大学
技术研发日:2020.09.11
技术公布日:2022/3/29
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1