一种基于JERPE的知识图谱构建方法与流程

文档序号:34467139发布日期:2023-06-15 11:06阅读:51来源:国知局
一种基于JERPE的知识图谱构建方法与流程

本发明属于图谱构建方法,具体涉及一种基于jerpe的知识图谱构建方法。


背景技术:

1、当前,随着信息技术的高速发展,各个领域的信息化程度逐渐提高。知识图谱作为一种尤为重要的技术被应用在检索、智能对话等很多方向,得益于其在揭示真实世界事物间关系方面的天然优势,正是相互间的关系为每个节点的表征提供了更加全面的特征,使得语义推理能力非常出色。因而,知识图谱构建技术也作为一种关键技术而被广泛关注。

2、知识抽取作为自然语言处理中一项比较关键的基础性任务,旨在提取满足特定需求的数据。目前,抽取任务大部分还是基于管道式抽取,这种管道式抽取又会造成抽取中误差的积累。知识抽取作为知识图谱构建的基础环节,涉及实体、关系、属性的抽取。然而,现有技术方案中构建的知识图谱往往会存在一定程度的误差。用于解决传统知识图谱构建方法中误差积累的问题,是非常具有意义的。


技术实现思路

1、针对上述现有技术方案中构建的知识图谱往往会存在一定程度的误差的技术问题,本发明提供了一种基于jerpe的知识图谱构建方法,可以准确、自动地构建知识图谱。

2、为了解决上述技术问题,本发明采用的技术方案为:

3、一种基于jerpe的知识图谱构建方法,包括下列步骤:

4、s1、获取构建知识图谱所需要的数据源并将数据源中长度超多600的文本数据进行滑窗处理;

5、s2、初始化初级状态特征,此状态特征分别包含实体对、实体对间关系、实体对各个属性的位置特征信息;

6、s3、初始化次级状态特征,此状态特征分别包括实体对、实体与属性间隔距离特征;

7、s4、初级状态特征与次级状态特征作为智能体所处的环境,最大化奖励更新多智能体的参数;

8、s5、根据s4中得到的多智能更新当前时刻的下一个时刻初级状态特征;

9、s6、根据s5得到当前时刻的下一个时刻次级状态特征;

10、s7、迭代s4、s5、s6,完成实体关系属性抽取而进行知识图谱构建。

11、所述s1中获取需要进行提取信息的数据源并进行数据分割:

12、所述数据源包含在政务服务领域群众留言文本数据、政府单位官网关于单位简介的文本数据以及相关人物介绍的文本数据;

13、所述数据分割包含将数据源里文本长度超过512的文本进行滑窗处理,其中,滑动步长设置为50,可以将长文本分解为长度为512的文本进行信息提取,能够将长文本运算复杂度降低。

14、所述s2中初始化初级状态特征包含第一状态分量st1、第二状态分量st2、……、第十状态分量st10;

15、所述初始化初级状态特征为:

16、

17、其中,t=0,为512×10维二进制向量,st1、st2、...、st10分别为512维二进制向量;第一分量st1为实体对中第一个实体开始位置特征信息;第二分量st2为实体对中第一个实体结束位置特征信息;第三分量st3为实体对中第一个实体的属性开始位置特征信息;第四分量st4为实体对中第一个实体的属性结束位置特征信息;第五分量st5为实体对中第二个实体开始位置特征信息;第六分量st6为实体对中第二个实体结束位置特征信息;第七分量st7为实体对中第二个实体的属性开始位置特征信息;第八分量st8为实体对中第二个实体的属性结束位置特征信息;第九分量st9为实体对关系的开始位置信息;第十分量st1为实体对关系的结束位置信息。

18、所述s3中初始化次级状态特征包含第一状态分量st1、第二状态分量st12、第三状态分量st13;

19、所述初始化次级状态特征为:

20、

21、

22、

23、

24、其中,t=0,为512×3维二进制向量,st11、st12、st13,分别为512维二进制向量;st11为实体对中第一个实体与第二个实体间隔距离特征信息;st12为实体对中第一个实体与第一个实体的属性间隔距离特征信息、st13为实体对中第二个实体与第二个实体的属性间隔距离特征信息。

25、所述s4中根据s2、s3所得到的初始化初级状态特征初始化次级状态特征多智能体在时刻t进行策略选择at并得到最大化奖励r来更新下一个时刻的环境状态:

26、所述策略选择at为:

27、at=[at1,at2,…,atn]

28、其中,t=0,n=10,at为512×10维二进制向量,atk(k=1,2,…,n)表示第k个智能体的动作空间;at1、at2、…、atn分别为512维二进制向量,表示第k个智能体在在t时刻的动作分量;at1中1的位置索引为第1个智能体在t时刻对实体对中第一个实体开始位置的动作策略;at2中1的位置索引为第2个智能体在t时刻对实体对中第一个实体结束位置的动作策略;at3中1的位置索引为第3个智能体在t时刻对实体对中第一个实体属性开始位置的动作策略;at4中1的位置索引为第4个智能体在t时刻对实体对中第一个实体属性结束位置的动作策略;at5中1的位置索引为第5个智能体在t时刻对实体对中第二个实体开始位置的动作策略;at6中1的位置索引为第6个智能体在t时刻对实体对中第二个实体结束位置的动作策略;at7中1的位置索引为第7个智能体在t时刻对实体对中第二个实体属性开始位置的动作策略;at8中1的位置索引为第8个智能体在t时刻对实体对中第二个实体属性结束位置的动作策略;at9中1的位置索引为第9个智能体在t时刻对实体对关系开始位置的动作策略;at10中1的位置索引为第10个智能体在t时刻对实体对关系结束位置的动作策略。

29、所述s4中下一个时刻的环境状态包括第一分量、第二分量;

30、所述第一分量为:

31、

32、

33、s(t+1)n=softmax(σ(atnwtn))(n=1,2,…,10)

34、s(t+1)n=s.index_select(argmax(s(t+1)n))

35、其中,t=0,所述wki为512×512维的可学习参数向量,所述wtn为512×512维的可学习参数向量;所述s为一个512维的全零向量,所述argmax()表示最大值的索引,所述index_select()表示将指定的值置为1。

36、所述第二分量为:

37、

38、其中,t=0,s(t+1)11、s(t+1)12、s(t+1)13根据s(t+1)1、s(t+1)2、…、s(t+1)10中得到。

39、所述s4中最大化奖励为:

40、

41、

42、

43、

44、

45、

46、其中,所述r(si)为当前奖励,所述γ为折扣因子;所述false表示当前状态中的实体属性位置信息与对应真实位置信息不同,所述true表示当前状态中的实体属性位置信息与对应真实位置信息相同;所述j(θm,t)表示所有状态的奖励目标函数;所述θt+1、表示相应的策略梯度算法。

47、所述s5中下一个时刻初级状态特征是由s4中最大化奖励更新多智能体参数而得到。

48、所述s6中下一个时刻次级状态特征是由s5中的下一个时刻初级状态特征而得到。

49、本发明与现有技术相比,具有的有益效果是:

50、本发明利用强化学习中多智能体的高效运算、信息交互等优点,实现实体关系属性自动联合抽取,能够解决传统管道式抽取中存在的积累误差问题,并且高效、准确地实现知识图谱的构建。能够为信息检索、智能对话等很多方面的应用,提供强有力的技术保障。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1