一种基于时序知识图谱的重点人员风险预测方法

文档序号:38057672发布日期:2024-05-20 11:40阅读:15来源:国知局
一种基于时序知识图谱的重点人员风险预测方法

本发明涉及时序知识图谱预测领域,更确切地说,它涉及一种基于时序知识图谱的重点人员风险预测方法。


背景技术:

1、重点人员风险预测是一种对他人或社会有危险行为倾向的重点关注人员做出风险等级判定的方法,该方法的输出值表示重点人员在未来时间的风险等级,从而让有关部门能够提前关注高风险的人员,快速介入,降低违法行为的发生概率。在知识图谱上进行推理预测是目前主流的预测方法,现实环境中,我们可以直接获取到的是大量的非结构化以及半结构化数据,主要以文字,图表等格式存储,因此知识图谱的构建需要先对这些异构数据做预处理,使其以统一的数据格式存储下来,再通过命名实体识别,关系抽取,知识融合等技术构建出准确、完整的重点人员知识图谱,便于下游任务风险预测模型的处理。

2、近年来,随着图神经网络的发展,并且图谱本身的图结构非常符合图神经网络的建模,节点能够充分聚合图谱中邻居节点的特征表示;因此基于知识图谱的图表示学习在链接预测与实体分类等领域取得了重大的成就,但上述方法往往局限于静态数据分析或简单时间序列模型,难以捕捉到复杂系统中动态变化和多元关联性,在对未来风险的预测方面效果不佳。


技术实现思路

1、本发明的目的是针对现有技术的不足,提出了一种基于时序知识图谱的重点人员风险预测方法。

2、第一方面,提供了一种基于时序知识图谱的重点人员风险预测方法,包括:

3、步骤1、获取多种来源的风险数据,并以相同的数据格式进行存储;

4、步骤2、对所述风险数据中的文本数据进行预处理;所述预处理包括:数据清洗、统一编码格式、统一时间格式;

5、步骤3、对所述文本数据进行实体识别与关系抽取,形成时序知识图谱四元组格式;所述四元组表示为(s,r,o,t),其中s代表头实体,r代表关系,o代表尾实体,t代表时间戳;

6、步骤4、根据时间戳划分四元组,生成对应时间t上的图谱快照gt,风险预测任务转化为,在已知头实体s和关系r的情况下,预测尾实体o正确的概率;

7、步骤5、根据步骤4计算出的预测分类值去计算分类损失,反向传播进行模型的参数更新;

8、步骤6、重复步骤4-步骤5,直到预测分类损失趋于稳定;

9、步骤7、预测重点人员a在下一时刻t+1的风险等级:将a转换为对应的实体,构造以下四元组作为模型的输入(人员a,风险,?,t+1),模型输出得分向量,通过实体对照表将对应的文字输出,完成风险预测。

10、作为优选,步骤3包括:

11、步骤3.1、采用jieba分词对文本进行命名实体识别;

12、步骤3.2、采用casrel模型抽取实体之间的关系,并对抽取出的关系做人工校验,过滤掉错误的关系,形成四元组。

13、作为优选,步骤4包括:

14、步骤4.1、对所述四元组进行预处理,包括:将所有四元组按照时间戳进行划分,在每个时刻t下生成对应的图谱快照gt;

15、步骤4.2、将长度为k的图谱序列{gt-k+1,gt-k+2,gt-k+3,...,gt}作为输入送进时序演化网络模块,得到实体的演化表示et;

16、步骤4.3、根据所述图谱序列,生成面向查询的聚合图谱;聚合图谱中包含了所有与查询实体相关的四元组以及通过加权随机采样得到的部分邻居节点,将其作为gat的输入,得到聚合图谱的实体表示uet;

17、步骤4.4、将步骤4.2与步骤4.3得到的实体表示通过门控单元进行聚合,最后通过convtranse解码器计算预测概率值。

18、作为优选,步骤4.2中,时序演化模块负责学习每个时间t下图谱快照的结构信息,通过gru门控单元传递节点的时序特征,模块主要包含3个组件,compgcn组件用来在异构图中学习关系和节点的表示,输出节点的嵌入向量;两个gru组件用于学习关系与实体的时序特征。

19、作为优选,步骤4.3中,关联节点聚合模块针对当前时刻t的实体预测query,记为(s,r,?,t),从t-1时刻开始向之前的时刻遍历查询,如果实体s作为头实体或者尾实体在四元组中出现过,则添加进集合qt,接着对qt中的所有节点,通过加权时间采样公式,得到所有的邻居节点,从而构建出所有查询节点的聚合图ugt,图上的每一条边都具有时间属性t,t∈{t-k:t-1},其中t-k是ugt的左边界时间,根据gru组件在每个时间t生成的实体演化矩阵et从t-k:t-1计算一系列et的平均值作为当前时间的初始嵌入矩阵;接着输入进一个3层的gat网络中,通过注意力机制自动获取边对应的权重,得到聚合图的嵌入表示。

20、作为优选,步骤4.4中,通过门控单元进行信息融合,表示如下:

21、h′s=σ(ge)⊙hs+(1-σ(ge))⊙uhs

22、其中,ge是一个可学习的门控向量参数,hs是演化表示,uhs是聚合表示,h′s为最终的实体表示,⊙表示按元素相乘,σ为sigmoid函数,将元素值限制到[0,1]的区间。

23、作为优选,步骤4.4中,获得节点和关系的嵌入表示后,需要对其进行解码预测,通过convtranse组件计算得分,其公式如下:

24、p(o|s,r,et,rt)=σ(etconvtranse(hs,hr))

25、其中σ为sigmoid激活函数,hs与hr是t时刻节点s与关系r的嵌入表示,et为门控单元输出的节点嵌入矩阵。

26、作为优选,步骤5中,采用交叉熵损失函数计算损失。

27、第二方面,提供了一种执行第一方面任一所述基于时序知识图谱的重点人员风险预测方法的系统,包括:

28、获取模块,用于获取多种来源的风险数据,并以相同的数据格式进行存储;

29、预处理模块,用于对所述风险数据中的文本数据进行预处理;所述预处理包括:数据清洗、统一编码格式、统一时间格式;

30、抽取模块,用于对所述文本数据进行实体识别与关系抽取,形成时序知识图谱四元组格式;所述四元组表示为(s,r,o,t),其中s代表头实体,r代表关系,o代表尾实体,t代表时间戳;

31、划分模块,用于根据时间戳划分四元组,生成对应时间t上的图谱快照gt,风险预测任务转化为,在已知头实体s和关系r的情况下,预测尾实体o正确的概率;

32、计算模块,用于根据划分模块计算出的预测分类值去计算分类损失,反向传播进行模型的参数更新;

33、重复模块,用于重复划分模块和计算模块的工作,直到预测分类损失趋于稳定;

34、预测模块,用于预测重点人员a在下一时刻t+1的风险等级:将a转换为对应的实体,构造以下四元组作为模型的输入(人员a,风险,?,t+1),模型输出得分向量,通过实体对照表将对应的文字输出,完成风险预测。

35、第三方面,提供了一种计算机存储介质,其特征在于,所述计算机存储介质内存储有计算机程序;所述计算机程序在计算机上运行时,使得计算机执行第一方面任一所述基于时序知识图谱的重点人员风险预测方法。

36、本发明的有益效果是:本发明通过构建风险行为和重点人员相关的时序知识图谱,生成每一时间戳的图谱快照与聚合图谱,输入进时序演化模块与关联节点聚合模块,通过神经网络的计算与误差的反向传播,最小化损失函数,提高了下一时刻实体预测正确的概率,从而实现对未来时间戳重点人员风险概率的预测。整个模型结合了图谱的时序演化特征与历史相关性特征,获得了较好的预测准确性,在测试集上准确地给出了重点人员的风险级别,便于相关部门后续对该人员行为进行关注,对潜在的高风险人员或行为进行预防。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1