一种知识库文档和知识图谱实体关联的方法及系统与流程

文档序号:26544164发布日期:2021-09-07 22:57阅读:278来源:国知局
一种知识库文档和知识图谱实体关联的方法及系统与流程

1.本发明涉及知识图谱领域,具体涉及一种知识库文档和知识图谱实体关联的方法及系统。


背景技术:

2.随着互联网、知识工程和人工智能的兴起和快速发展,文本数据出现爆炸式增长,人们迫切需要高效、智能的文本分析技术,来理解数据的真实意义,从而帮助人们或组织快速获取有用信息。实体关联技术是一种文本分析技术,它将文本数据中出现的词或词组作为实体,关联到知识图谱库中对应的实体id。这样,人们就可以通过实体关联来理解文本数据的真实含义,为我们理解文本数据的语义信息提供了很大便利。
3.当前实体关联的主要做法是,对文本中的实体,以及文本实体的上下文语义向量,与图谱中的候选实体的属性向量进行相似度计算,并对相似度分值进行排序,相似度分值超过阈值则关联到知识库实体,否则,不关联。这种方法存在的一个问题是,如果对于知识库文档中的部分实体名称,其上下文描述信息与图谱中的实体属性相关度很低,但是和别的信息关联较高,如关系节点,一度关系,二度关系等,则不能够关联到图谱中的实体id,造成实体关联的准确率和召回率较低。
4.例如,以下文本:
5.日前,著名歌手韩红携姚明与章子怡一起出现在其自己发起的西藏公益活动发布会上。据悉,下个月初,韩红将与多达百位的各界爱心人士和医疗专家组成援藏志愿者爱心车队,进行20天的公益之旅。
6.对文本进行实体识别,识别出人名:韩红、姚明、章子怡,这三个人名是要链接的实体名称。其中,章子怡相关的上下文语义都是公益相关的,但是知识图谱中存储的实体章子怡在属性描述上都是影视相关的,语义向量和实体属性计算相似度时,得分很低,无法链接。但是章子怡有一个一度关系节点是慈善使者,这样就可以计算得出,文章中的章子怡和知识库中的章子怡是可以链接的。


技术实现要素:

7.针对上述技术问题,本发明提供一种知识库文档和知识图谱实体关联的方法及系统,能够提高实体关联的准确率和召回率。
8.本发明解决上述技术问题的技术方案如下:
9.第一方面,本发明提供一种知识库文档和知识图谱实体关联的方法,包括:
10.对文本进行实体识别,得到实体列表;
11.根据所述实体列表中的实体在知识图谱库中进行搜索,得到至少一个候选实体;
12.分别计算所述文本的第一特征信息与每个所述候选实体以及所述候选实体的至少一个关联节点的第二特征信息的相似度,将计算得到的各个相似度按照对应的权重进行加权计算,得到每个候选实体对应的总相似度;
13.将所述实体与超过阈值的最大总相似度对应的候选实体进行关联。
14.本发明的有益效果是:
15.充分利用文本的特征信息以及根据文本中的实体搜索到的候选实体及关联节点的特征信息计算相似度,从而有效提高实体关联的准确率和召回率。
16.在上述技术方案的基础上,本发明还可以做如下改进。
17.进一步,所述第一特征信息为所述文本的特征词的词向量之和,所述第二特征信息为节点名称和属性的词向量之和。
18.进一步,查询所述实体列表中的实体在知识库的文档中的位置,得到所述实体对应的位置列表。
19.进一步,对所述知识库的文档在所述位置列表的位置中的实体的格式进行强调处理。
20.第二方面,本发明还提供一种知识库文档和知识图谱实体关联的系统,包括:
21.实体识别模块,用于对文本进行实体识别,得到实体列表;
22.候选实体搜索模块,用于根据所述实体列表中的实体在知识图谱库中进行搜索,得到至少一个候选实体;
23.相似度计算模块,用于分别计算所述文本的第一特征信息与每个所述候选实体以及所述候选实体的至少一个关联节点的第二特征信息的相似度,将计算得到的各个相似度按照对应的权重进行加权计算,得到每个候选实体对应的总相似度;
24.实体关联模块,用于将所述实体与超过阈值的最大总相似度对应的候选实体进行关联。
25.进一步,所述第一特征信息为所述文本的特征词的词向量之和,所述第二特征信息为节点名称和属性的词向量之和。
26.进一步,还包括:
27.位置查询模块,用于查询所述实体列表中的实体在知识库的文档中的位置,得到所述实体对应的位置列表。
28.进一步,还包括:
29.格式处理模块,用于对所述知识库的文档在所述位置列表的位置中的实体的格式进行强调处理。
30.第三方面,本发明还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行上述方法的步骤。
31.第四方面,本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。
附图说明
32.图1为本发明实施例提供的一种知识库文档和知识图谱实体关联的方法的流程图;
33.图2为本发明实施例提供一种知识库文档和知识图谱实体关联的系统的结构框图;
34.图3是根据本发明实施例示出的一种计算设备的结构示意图。
具体实施方式
35.以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
36.图1为本发明实施例提供的一种知识库文档和知识图谱实体关联的方法的流程图,如图1所示,该方法包括:
37.s1、对文本进行实体识别,得到实体列表;
38.具体的,所述文本为知识库文档中的一段文本,使用crf实体识别模型,可对知识库文档进行实体识别,识别出人名、物体名等实体,从而得到该文本的实体列表。
39.s2、根据所述实体列表中的实体在知识图谱库中进行搜索,得到至少一个候选实体;
40.本领域技术人员知道,知识图谱由实体(节点)和实体关系(边)组成,实体有名称、属性等描述性信息。实体关系也有名称和属性,且有方向。
41.s3、分别计算所述文本的第一特征信息与每个所述候选实体以及所述候选实体的至少一个关联节点的第二特征信息的相似度,将计算得到的各个相似度按照对应的权重进行加权计算,得到每个候选实体对应的总相似度;
42.具体的,第一特征信息可以为实体所在文本的特征词的词向量之和,具体说明如下:
43.对文本分词并计算每个词语的词频(词语出现次数除以该文档总词数),按照词频分值由高到低排序。得到排名前top n个词汇作为文本特征词。将确定的n个特征词的词向量相加:其中v
i
表示第i个词的词向量,textvec表示待处理文本摘要向量,即第一特征信息。其中,词向量可选用fasttext(快速文本分类算法)基于百科数据训练中文预训练得到,词向量维度是300维,下同。
44.关联节点为知识图谱中与候选实体存在关联关系的一度关系节点、二度关系节点等节点,第二特征信息可以为节点名称和属性的词向量之和,将文本的第一特征信息分别与候选实体节点及其一度关系节点、二度关系节点的第二特征信息计算相似度并加权求和,即可得到候选实体的总相似度,具体包括如下步骤:
45.1)按句子做相似度计算。对知识库中的文档按句号分割,针对实体所在句子,再按“,”进行分割,获取它们的词向量,相加构成senvec,获取候选实体节点名称、属性的词向量,相加构成attrvec,然后用senvec和attrvec计算向量的余弦相似度:||x||表示向量x的范数,得出分值senscore。
46.2)获取候选实体节点名称、属性和它的一度关系节点名称、属性的词向量,相加构成firstrelvec,和文本摘要textvec做相似度计算,得出分值firstrelscore。
47.3)获取候选节点名称、属性和它的二度条关系节点名称、属性的词向量,相加构成secondrelvec,并且和文本摘要textvec计算向量相似度,得出分值secondrelscore。
48.4)对每个实体搜索到的候选节点的上述分值分别设置不同的权重,并且权重可配
置,然后求和。
49.s4、将所述实体与超过阈值的最大总相似度对应的候选实体进行关联。
50.具体的,如果步骤s2在知识图谱库中搜索到的候选实体数量大于一个,则需要按照步骤s3进行特征的匹配和语义计算,确定出最大的总相似度,从而找到最匹配的一个候选实体。进而判断最大相似度是否达到关联阈值,达到,则关联,返回候选实体的实体id,即doc_id,达不到,不关联。
51.如果搜索匹配到的只有一个实体,则直接通过上述步骤s3去计算总相似度,并且判断是否达到关联阈值,达到,则关联,返回doc_id,达不到,不关联。
52.本发明实施例提供的一种知识库文档和知识图谱实体关联的方法,可以提取有效特征,充分利用文本中存在的实体、实体所在句子、文本摘要和图谱中实体、实体属性、一度关系及关系实体以及二度关系及关系实体的相关度高低情况,有效提高实体关联的准确率和召回率。
53.现有的实体关联方法存在的另一个问题,文档中的实体和知识图谱有关联,但是想获取关联实体所在文档中的位置,无法直接获得,特别是文档页数过多时。针对这一问题,可选地,在该实施例中,该方法还包括:
54.s5、查询所述实体列表中的实体在知识库的文档中的位置,得到所述实体对应的位置列表。
55.具体的,实体在知识库的文档中的位置可以是实体所在页码等,本实施例中,可采用elasticsearch搜索引擎来查询实体在知识库的文档中的页码,从而得到所有出现该实体的页码的页码列表。这样,在返回实体的doc_id时,还可进一步返回doc_id相应的页码列表。
56.为了进一步便于用户实时快速的查看实体的关联信息,可选地,在该实施例中,该方法还包括:
57.s6、对所述知识库的文档在所述位置列表的位置中的实体的格式进行强调处理。
58.具体的,根据doc_id对应的页码列表,可以对文档页码内容中的实体的格式进行加粗、高亮等强调处理,用于可以快速方便的找到实体链接对应的文档实体。
59.下面对本发明的原理进行举例说明,例如,以下文本的处理过程:
[0060]“日前,著名歌手韩红携姚明与章子怡一起出现在其自己发起的西藏公益活动发布会上。据悉,下个月初,韩红将与多达百位的各界爱心人士和医疗专家组成援藏志愿者爱心车队,进行20天的公益之旅。”[0061]
上述文本首先按“。”分割成了两个句子
[0062]
句子1:“日前,著名歌手韩红携姚明与章子怡一起出现在其自己发起的西藏公益活动发布会上。”[0063]
句子2:“据悉,下个月初,韩红将与多达百位的各界爱心人士和医疗专家组成援藏志愿者爱心车队,进行20天的公益之旅。”[0064]
针对实体所在是句子,对句子进行分词,通过fasttext获取各个词的词向量,相加构成句向量senvec。获取候选实体“韩红”“姚明”“章子怡”的节点名称、属性的词向量,相加构成attrvec,然后用senvec和attrvec计算向量相似度:||x|
|表示向量x的范数,得出分值senscore。
[0065]
再获取候选实体“韩红”“姚明”“章子怡”的节点名称、属性和它的一度关系节点名称、属性的词向量,相加构成firstrelvec,和文本摘要textvec做相似度计算,公式同上,得出分值firstrelscore。
[0066]
获取候选实体“韩红”“姚明”“章子怡”的节点名称、属性和它的二度条关系节点名称、属性的词向量,相加构成secondrelvec,并且和文本摘要textvec计算向量相似度,公式同上,得出分值secondrelscore。
[0067]
对上述计算出的分值分别设置不同的权重,并且权重可配置,如果对一度关系的分值更看重,则把firstrelscore的权重设置高一点,假设为0.7,剩余分值权重senscore为0.2,secondrelscore为0.1,上述分值乘以权重然后相加求和sum。对每个实体的sum,分别与设置的阈值进行比较,如果大于阈值,则进行关联,根据从elasticsearch获得的每个实体对应的页码,可以获得关联实体的页码列表。
[0068]
图2为本发明实施例提供一种知识库文档和知识图谱实体关联的系统的结构框图,该系统中各个模块的功能原理已在前述的方法实施例中进行了说明,以下不再赘述。
[0069]
如图2所示,该系统包括:
[0070]
实体识别模块,用于对文本进行实体识别,得到实体列表;
[0071]
候选实体搜索模块,用于根据所述实体列表中的实体在知识图谱库中进行搜索,得到至少一个候选实体;
[0072]
相似度计算模块,用于分别计算所述文本的第一特征信息与每个所述候选实体以及所述候选实体的至少一个关联节点的第二特征信息的相似度,将计算得到的各个相似度按照对应的权重进行加权计算,得到每个候选实体对应的总相似度;
[0073]
实体关联模块,用于将所述实体与超过阈值的最大总相似度对应的候选实体进行关联。
[0074]
可选地,在该实施例中,所述第一特征信息为所述文本的特征词的词向量之和,所述第二特征信息为节点名称和属性的词向量之和。
[0075]
可选地,在该实施例中,该系统还包括:
[0076]
位置查询模块,用于查询所述实体列表中的实体在知识库的文档中的位置,得到所述实体对应的位置列表。
[0077]
可选地,在该实施例中,该系统还包括:
[0078]
格式处理模块,用于对所述知识库的文档在所述位置列表的位置中的实体的格式进行强调处理。
[0079]
图3是根据本发明一示例性实施例示出的一种计算设备的结构示意图。
[0080]
参见图3,计算设备300包括存储器310和处理器320。
[0081]
处理器320可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field

programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0082]
存储器310可以包括各种类型的存储单元,例如系统内存、只读存储器(rom),和永久存储装置。其中,rom可以存储处理器320或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器310可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(dram,sram,sdram,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器310可以包括可读和/或写的可移除的存储设备,例如激光唱片(cd)、只读数字多功能光盘(例如dvd

rom,双层dvd

rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、min sd卡、micro

sd卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
[0083]
存储器310上存储有可执行代码,当可执行代码被处理器320处理时,可以使处理器320执行上文述及的方法中的部分或全部。
[0084]
上文中已经参考附图详细描述了本发明的方案。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。本领域技术人员也应该知悉,说明书中所涉及的动作和模块并不一定是本发明所必须的。另外,可以理解,本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,本发明实施例装置中的模块可以根据实际需要进行合并、划分和删减。
[0085]
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中部分或全部步骤的计算机程序代码指令。
[0086]
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤的部分或全部。
[0087]
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
[0088]
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0089]
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技
术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1