本发明涉及人工智能、数据挖掘、深度学习、异常检测、新兴技术识别等领域,具体涉及一种基于动态图异常检测的新兴技术识别方法。
背景技术:
1、新兴技术领域往往由已有技术的创新式组合形成,对新兴技术领域的准确识别可帮助企业和技术人员快速找到新的投资与研究方向,具有显著的社会价值。新兴技术领域识别问题可以被建模为技术组合关系的异常检测任务,即从科技大数据如专利、项目中构建出动态图,以技术领域为图中的节点,技术之间的共现关系为图中的边,通过对图中技术组合关系的异常程度进行挖掘,找出可能的新兴技术领域,进而辅助下游各类业务场景。
2、在现有技术中,申请号为cn202210014102.3的发明专利公开了一种基于双重自注意的动态图异常检测方法,该方法将结构自注意应用于图的随机游走采样得到的顶点序列,进而提取动态图的结构特征和时序特征进行异常边的检测,从而通过引入自注意力机制关注更加重要的节点,增强了结构特征的提取,并进而学习顶点的进化模式,提取出时序特征,通过双注意力在异常检测任务上取得较好效果。申请号为cn202210019006.8的发明专利公开了一种基于社区结构的动态图异常检测方法,该方法通过检测动态图的进化社区,重建社区内与社区间节点的距离,使得同一社区内节点特征距离相近而社区间距离相远,从而有效解决异常检测任务问题。申请号为cn202210530965.6的发明专利提出了一种基于大规模语料的新兴技术识别方法和装置,该方法通过对文献进行关键词提取,通过候选文献数量和关键词相关信息得到新兴分数值,进而对得到的候选新兴技术关键词通过动态回溯法得到目标新兴技术领域。申请号为cn201710356745.5的发明专利提出了一种基于专利引文的新兴技术识别方法,该方法通过对近两年专利引文的同引耦合度进行计算,得到耦合度最高的主分类号,进而将其中新建的分类号标为新兴技术,并循环完成所有专利的技术识别得到标注数据用于训练分类模型,进而对后续专利技术进行预测,在新兴技术识别任务上取得较好的效果。
3、然而现有的动态图异常检测方法在对时间序列特征和空间结构特征的融合深度上存在缺陷导致检测性能不高,且异常检测技术在新兴技术识别的应用任务上存在空白,有待进一步改进和验证。
技术实现思路
1、本发明的目的在于解决现有技术中新兴技术识别检测性能不高的问题,并提供一种基于动态图异常检测的新兴技术识别方法。
2、本发明所采用的具体技术方案如下:
3、一种基于动态图异常检测的新兴技术识别方法,其包括:
4、s1、将技术文本数据构建为技术动态图,其中图节点为技术领域,边为技术领域之间的共现关系,时间戳为技术文本公开的日期;以技术动态图中的每条边为中心边,通过子图采样提取每条边对应的邻居子图;邻居子图的节点集合包含构成中心边的两个节点以及这两个节点的所有一阶邻居节点,邻居子图中的边为子图内所有节点之间的边;
5、s2、针对技术动态图中各条边对应的邻居子图,计算图中每个节点包含时间-空间独立特征集合与时间-空间耦合特征集合的多级节点特征,并利用权重参数将多级节点特征投影到特征空间中,聚合得到每个节点对应的时空特征向量;
6、s3、将每个邻居子图在技术动态图中的对应节点集合按时间顺序排列拼接形成动态图节点序列,将动态图节点序列中各节点的时空特征向量与时空二维位置编码信息进行融合,得到各节点的融合特征;将动态图节点序列中每个节点的融合特征输入自注意力网络深度学习模型中进行深度表征计算,并对动态图节点序列的所有节点的深度表征向量进行聚合,得到每个邻居子图的中心边对应的深度表征向量;
7、s4、针对技术动态图的最新快照中的每条边,将其对应的深度表征向量输入多层感知机深度学习模型中,将每条边的深度表征向量转化为对应的异常得分,以异常得分作为筛选标准,从技术动态图最新快照中筛选处异常得分从高到低排序靠前的若干条边,这些边所对应的存在共现关系的两个技术领域组合即为新兴技术候选领域。
8、作为优选,所述技术文本为专利文档,所构建的专利技术动态图中,节点为专利cpc分类编码,边为专利文档涉及前三个cpc之间的组合关系,时间戳为专利公开日期。
9、作为优选,所述技术文本为项目文本,所构建的项目技术动态图中,节点为项目技术关键词,边为项目文档涉及的前五个关键词之间的组合关系,时间戳为项目公布日期。
10、作为优选,所述s1中,进行子图采样时,对技术动态图中构成每一条边的两个节点和选取其所有邻居节点,这些节点及其边构成这条边对应的邻居子图,邻居子图中的任一节点表示如下:
11、
12、其中,为在时间t的第k个节点,和分别为节点和的一阶邻居节点集合。
13、作为优选,所述s2中,针对技术动态图中各条边对应的邻居子图,每个节点对应的时空特征向量计算方法如下:
14、s21、计算由全局空间特征、局部空间特征和存在时间特征组成的时间-空间独立特征集合,其中:
15、全局空间特征由节点在全局图中的pagerank值所表示,计算式如下:
16、
17、式中:st是全局的技术动态图在时间t的快照,pagerank(·)为pagerank值计算函数;
18、局部空间特征由节点到边构成节点之间的最小距离所表示,计算式如下:
19、
20、式中:dist(·)为最短路径距离计算函数,min(·)为最小值函数;
21、存在时间特征由节点所在子图的中心边所存在的时间跨度表示,计算式如下:
22、
23、式中:tstart为所在子图的中心边第一次产生的时间点;
24、s22、计算由距离变化特征、交互变化特征和共邻变化特征组成的时间-空间耦合特征集合,其中:
25、距离变化特征由节点所在子图的中心边构成节点之间的距离在时间维度上的变化所表示,计算式如下:
26、
27、式中:dist(·)为最短路径距离计算函数,用于计算在时间点t-δt时刻边的两个构成节点之间的最短距离;δt为关注特征变化的时间步长;
28、交互变化特征由节点所在子图的中心边构成节点的度在时间维度上的变化所表示,计算式如下:
29、
30、式中:deg(·)为度计算函数,用于分别计算中心边构成节点在不同时刻技术动态图快照上的度;
31、共邻变化特征由节点所在子图的中心边构成节点的共同邻居数量在时间维度上的变化所表示,计算式如下:
32、
33、式中:v为边构成节点和各自的邻居节点集合的交集中的节点;
34、s23、针对邻居子图中的任一节点将时间-空间独立特征集合与时间-空间耦合特征集合中的每个特征均被可学习的权重参数投影到特征向量空间中,并被进一步聚合得到节点对应的时空特征向量计算式如下:
35、
36、
37、
38、式中:wg,wl,wt为投影时间-空间独立特征的可学习权重参数,wd,wi,wn为投影时间-空间耦合特征的权重参数。
39、作为优选,所述s3中,得到每个邻居子图的中心边对应的深度表征向量的方法如下:
40、s31、将每个邻居子图在技术动态图的不同快照中的对应节点集合按时间顺序排列拼接,形成总长度为(c+2)×t的动态图节点序列
41、
42、式中:∪为拼接运算符,c为中心边两侧的两个构成节点的所有邻居节点数量,为所有邻居节点,t为技术动态图中包含的时间戳数量即快照总数;
43、s32、将动态图节点序列中的每个节点分别将其绝对空间位置投影和相对空间位置投影求和,再与其时间位置投影进行拼接得到时空二维位置编码信息计算式如下:
44、
45、式中:为向量拼接运算符,wabs、wrel、wtmp为三个可学习的投影矩阵;
46、为节点的绝对空间位置,计算式如下:
47、
48、式中:rw=ad-1为随机游走操作结果矩阵,a为技术动态图的邻接矩阵,d-1为技术动态图的度矩阵的逆;rwkk为取随机游走操作结果矩阵的第k行第k列的值,rwkk的上标代表幂;
49、为节点的相对空间位置,计算式如下:
50、
51、petmp为节点的时间位置,计算式如下:
52、
53、式中:t为节点所在子图的当前时间戳;
54、s33、将动态图节点序列中每个节点的时空特征向量与时空二维位置编码信息进行融合,并拼接成模型的输入特征序列:
55、
56、式中:(·)·为矩阵转置操作符;
57、s34、将输入特征序列输入总层数为p的多层自注意力网络中,通过多层自注意力机制对输入特征序列进行深度表征,其中任意第l层自注意力网络中的深度表征方式如下:
58、首先计算注意力权重a(l),计算式如下:
59、
60、式中:softmax(·)为softmax函数,l为当前所在的网络层数,l∈[1,p];其中为初始的输入特征序列
61、然后对得到的结果进行层标准化操作和前馈网络计算并得到当前网络层输出的深度表征向量计算式如下:
62、h(l)=ln(a(l)+q(l)),
63、
64、式中:ln(·)为层标准化操作,ffn(·)为前馈网络计算;
65、s35、将最后一层自注意力网络输出的深度表征向量为进行平均值聚合操作,得到输入特征序列所对应中心边的动态图特征结果,表示如下:
66、
67、式中:为深度表征向量中对应于动态图节点序列的第n个节点的表征向量,l=(c+2)×t。
68、作为优选,所述s4中,将技术动态图最新快照中每条边的深度表征向量转化为对应的异常得分的表达式为:
69、
70、其中,sigmoid(·)为sigmoid函数,mlp(·)为多层感知机模型。
71、作为优选,所述s4中,筛选得到的新兴技术候选领域需发送给人工审核端进行审核,结合人工审核结果生成最终的新兴技术领域。
72、作为优选,所述s1~s4构成的新兴技术识别框架用于实际推理前,各网络层的可学习参数需要在训练阶段用预先构建的正负样本进行参数优化。
73、作为优选,训练新兴技术识别框架采用的误差损失表示如下:
74、
75、其中,n为所有样本的总数,和分别为正样本与负样本的异常得分。
76、本发明相对于现有技术而言,具有以下有益效果:
77、本发明基于新兴技术为已有技术的新型组合假设,通过构建面向技术领域的动态图数据,利用多种时空耦合特征与自注意力深度神经网络算法,将技术领域节点之间的关系表征为融合结构信息与时序信息的特征向量,并计算得出技术组合的异常得分,并进一步将高分技术组合视为新兴技术领域的候选集合,再通过人工判断得出最终的新兴技术领域结果。该方法在特征输入与神经网络中均充分利用了动态图中的空间与时间耦合信息,在常规的异常检测任务中取得了优于其他同类最新方法的效果,并创新性地应用于新兴技术识别任务中,起到了筛选候选领域的作用,显著降低解决此任务的成本。该方法可进一步支撑技术研究方向选择、技术领域投资、技术发展分析等业务场景。