1.本发明属于知识图谱构建领域,更具体地,涉及一种基于关键词匹配的实体抽取方法及系统。
背景技术:2.在如今大数据的时代,数据冗杂为知识的查询带来许多不便,知识图谱在此背景下顺应而生。知识图谱,通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法,与计量学引文分析、共现分析等方法相结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构,以达到多学科融合目的。它能为学科研究提供切实的、有价值的参考。知识图谱将知识内容可视化,将关系结构具体化,通过各个学科界的共同协作,使用可视化技术描述知识,便于查询,也能为各个学科研究提供便利有效的参考。
3.在技术快速发展的当今,我们应更加需要一些专用的知识图谱架构,不仅方便人们了解学习相关知识,也方便研究者搜寻参考,便于科技发展得到进一步的提升。
4.国内外有许多知识图谱的使用案例,在不同专业领域例如医学、饮食、商业等。一个知识图谱的构建,需要三个步骤:信息抽取、知识融合、知识加工。而实体抽取,也被称为命名实体识别,是信息抽取的其中一个部分,它的质量对后续的知识获取效率和质量影响极大,因此也是信息抽取中最为基础和关键的部分。
5.国内外都对实体抽取开展了大量的研究,大量的文献提供了各种理论与实际结合的方法。现有的针对中文文本的实体抽取方法,通常采用固定的关键词进行实体抽取,但是如果中文文本中同时包括某个实体及其近义词或者仅包含其近义词,固定的关键词能够将该实体抽取出来,但无法将其近义词抽取出来。因此,现有的针对中文文本的实体抽取方法的抽取效果不好,存在漏抽取的问题。
6.为了便于理解本发明,以下对有关术语和相关概念进行解释:
7.实体:从数据处理的角度看,现实世界中的客观事物称为实体,它是现实世界中任何可区分、可识别的事物;实体可以指人,如教师、学生等,也可以指物,如书、仓库等;还可以指抽象的事件,如演出、足球赛等;还可以指事物与事物之间的的联系,如学生选课、客户订货等;
8.结构化文本:能够用统一的结构加以表示的文本;本发明中的结构化文本为中文文本;
9.非结构化文本:结构化文本之外的一切文本;本发明中的非结构化文本为中文文本;
10.键值对:键是要存放的数据的符号,值是要存放的数据;根据一个键可以获得对应的一个值;本发明中,键是关键字,值是实体;
11.句子:以句号结尾的整段文字为一个句子。
技术实现要素:12.针对现有技术的缺陷,本发明的目的在于提供一种基于关键词匹配的实体抽取方法及系统,旨在解决提高针对中文文本的实体抽取的抽取效果的问题。
13.为实现上述目的,本发明提供了一种基于关键词匹配的实体抽取方法,用于中文文本的实体抽取,其特征在于,包括以下步骤:
14.(1)预处理步骤:
15.从待处理的中文文本中抽取关键词库中关键词的近义词,并加入关键词库;待处理的中文文本包括结构化文本和非结构化文本;
16.关键词库是按设定的初始关键词建立;并不断从互联网获取初始关键词的近义词加入其中;
17.对结构化文本,执行步骤(2);对非结构化文本,执行步骤(3);
18.(2)结构化文本抽取步骤:
19.根据所述关键词库,对所述结构化文本进行匹配操作,得到与每个匹配关键词相对应的若干个实体,组成若干个键值对;所有的键值对组成第一实体集;执行步骤(4);
20.(3)非结构化文本抽取步骤:
21.根据所述关键词库,抽取所述非结构化文本中相应的句子,组成实体文本集;抽取实体文本集中相应的实体,组成第二实体集;执行步骤(4);
22.(4)合并步骤:
23.将所述第一实体集和第二实体集合并为最终实体集。
24.优选地,所述非结构化文本抽取步骤中,组成实体文本集的过程为:根据设定的触发词集中的每个触发词,对非结构化文本进行第一次匹配操作,得到含有该触发词的一个以上的匹配词组,将每个匹配词组所在的句子以及前一个和后一个句子抽取出来;将抽取出的所有句子中的重复句子去除,剩下的句子组成实体文本集;
25.所述触发词集中的触发词包含在所述关键词库中。
26.优选地,所述组成实体文本集的过程中,对于能与多个触发词相匹配的单个匹配词组,将其匹配到一个设定的触发词,该触发词与所述多个触发词均不相同。
27.优选地,所述非结构化文本抽取步骤中,组成第二实体集的过程为:根据设定的关键词集中的每个关键词,对实体文本集的每个句子进行第二次匹配操作,得到含有该关键词的若干个实体,组成若干个键值对;所有的键值对组成第二实体集;
28.所述关键词集中的关键词包含在所述关键词库中。
29.本发明提供了一种基于关键词匹配的实体抽取系统,用于中文文本的实体抽取,其特征在于,包括以下模块:
30.预处理模块:
31.用于从待处理的中文文本中抽取关键词库中关键词的近义词,并加入关键词库;待处理的中文文本包括结构化文本和非结构化文本;
32.关键词库是按设定的初始关键词建立;并不断从互联网获取初始关键词的近义词加入其中;
33.对结构化文本,执行结构化文本抽取模块中的操作;对非结构化文本,执行非结构化文本抽取模块中的操作;
34.结构化文本抽取模块:
35.用于根据所述关键词库,对所述结构化文本进行匹配操作,得到与每个匹配关键词相对应的若干个实体,组成若干个键值对;所有的键值对组成第一实体集;执行合并模块中的操作;
36.非结构化文本抽取模块:
37.用于根据所述关键词库,抽取所述非结构化文本中相应的句子,组成实体文本集;抽取实体文本集中相应的实体,组成第二实体集;执行合并模块中的操作;
38.合并模块:
39.用于将所述第一实体集和第二实体集合并为最终实体集。
40.优选地,所述非结构化文本抽取模块中,组成实体文本集的操作为:根据设定的触发词集中的每个触发词,对非结构化文本进行第一次匹配操作,得到含有该触发词的一个以上的匹配词组,将每个匹配词组所在的句子以及前一个和后一个句子抽取出来;将抽取出的所有句子中的重复句子去除,剩下的句子组成实体文本集;
41.所述触发词集中的触发词包含在所述关键词库中。
42.优选地,所述组成实体文本集的操作中,对于能与多个触发词相匹配的单个匹配词组,将其匹配到一个设定的触发词,该触发词与所述多个触发词均不相同。
43.优选地,所述非结构化文本抽取模块中,组成第二实体集的操作为:根据设定的关键词集中的每个关键词,对实体文本集的每个句子进行第二次匹配操作,得到含有该关键词的若干个实体,组成若干个键值对;所有的键值对组成第二实体集;
44.所述关键词集中的关键词包含在所述关键词库中。
45.本发明提供了一种基于关键词匹配的实体抽取装置,其特征在于,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如上所述的基于关键词匹配的实体抽取方法。
46.本发明提供了一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的基于关键词匹配的实体抽取方法。
47.通过本发明所构思的以上技术方案,与现有技术相比,由于本发明不断从互联网获取初始关键词的近义词并加入关键词库,因此使得关键词库中的近义词较为丰富,能显著提高实体抽取的效果,减少漏抽取的情况;从互联网获取近义词的获取方法具有较高的灵活性,可适用不同主题的实体抽取;
48.本发明从结构化文本和非结构化文本中关键词的近义词,并加入关键词库,因而使得针对该结构化文本和非结构化文本的实体抽取效果更好,准确性更高。
附图说明
49.图1是本发明实施例提供的基于关键词匹配的实体抽取方法的流程图。
具体实施方式
50.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并
不用于限定本发明。
51.如图1所示,本实施例提供一种基于关键词匹配的实体抽取方法,用于中文文本的实体抽取,包括以下步骤:
52.(1)预处理步骤:
53.采用聚类方法,从结构化文本和非结构化文本中提取关键词库中关键词的近义词,并加入关键词库;待处理的中文文本包括结构化文本和非结构化文本;
54.本实施例从结构化文本和非结构化文本中关键词的近义词,并加入关键词库,因而使得针对下述该结构化文本和非结构化文本的实体抽取效果更好,准确性更高。
55.结构化数据主要来源于互联网数据库,通过爬虫软件中的sql语句获取,导入本地数据库;
56.非机构化数据主要来源于各种网页、论坛、txt文件或doc文件;对于网页或者论坛,直接通过爬虫软件存储进入本地数据库;对于txt文件或doc文件,通过文件批处理导入本地数据库;
57.关键词库是按设定的初始关键词建立;并通过网络爬虫技术不断从互联网获取初始关键词的近义词加入其中;
58.由于本实施例不断从互联网获取初始关键词的近义词并加入关键词库,因此使得关键词库中的近义词较为丰富,能显著提高实体抽取的效果,减少漏抽取的情况;从互联网获取近义词的获取方法具有较高的灵活性,可适用不同主题的实体抽取;
59.结构化数据和非机构化数据均根据设定主题获取;初始关键词根据该设定主题所设定;其中,设定主题为货物数据;初始关键词包括长、厘米、色和四川腌菜等;以四川腌菜为例,初始关键词的近义词包括雪里红等;
60.对结构化文本,执行步骤(2);对非结构化文本,执行步骤(3);
61.(2)结构化文本抽取步骤:
62.根据关键词库,对结构化文本进行匹配操作,得到与每个匹配关键词相对应的若干个实体,组成若干个键值对;所有的键值对组成第一实体集;执行步骤(4);
63.(3)非结构化文本抽取步骤:
64.根据关键词库,抽取非结构化文本中相应的句子,组成实体文本集;抽取实体文本集中相应的实体,组成第二实体集;执行步骤(4);
65.组成实体文本集的过程为:根据设定的触发词集中的每个触发词,对非结构化文本进行第一次匹配操作,得到含有该触发词的一个以上的匹配词组,将每个匹配词组所在的句子以及前一个和后一个句子抽取出来;将抽取出的所有句子中的重复句子去除,剩下的句子组成实体文本集;触发词集中的触发词包含在关键词库中;
66.对于能与多个触发词相匹配的单个匹配词组,将其匹配到一个设定的触发词,该触发词与多个触发词均不相同;
67.组成第二实体集的过程为:根据设定的关键词集中的每个关键词,对实体文本集的每个句子进行第二次匹配操作,得到含有该关键词的若干个实体,组成若干个键值对;所有的键值对组成第二实体集;关键词集中的关键词包含在关键词库中;
68.将实体文本集中的句子进行预处理,然后进行第二次匹配操作,能使得实体抽取的结果更加精确;预处理包括以下操作:如果一个句子中含有一个逗号,查找该句子中是否
含有设定的关联词语,若不含有,则不处理;若含有,则进行以下操作:若该关联词语表示转折关系,则保留该句子中逗号前面的内容,去掉逗号后面的内容;若该关联词语表示递进或者同层级关系,则对该句子中逗号后面的内容加上逗号前面的内容的主语,或去掉逗号。
69.(4)合并步骤:
70.将第一实体集和第二实体集合并为最终实体集。
71.本实施例提供了一种基于关键词匹配的实体抽取系统,用于中文文本的实体抽取,包括以下模块:
72.预处理模块:
73.用于从待处理的中文文本中抽取关键词库中关键词的近义词,并加入关键词库;待处理的中文文本包括结构化文本和非结构化文本;
74.关键词库是按设定的初始关键词建立;并不断从互联网获取初始关键词的近义词加入其中;
75.对结构化文本,执行结构化文本抽取模块中的操作;对非结构化文本,执行非结构化文本抽取模块中的操作;
76.结构化文本抽取模块:
77.用于根据关键词库,对结构化文本进行匹配操作,得到与每个匹配关键词相对应的若干个实体,组成若干个键值对;所有的键值对组成第一实体集;执行合并模块中的操作;
78.非结构化文本抽取模块:
79.用于根据关键词库,抽取非结构化文本中相应的句子,组成实体文本集;抽取实体文本集中相应的实体,组成第二实体集;执行合并模块中的操作;
80.组成实体文本集的操作为:根据设定的触发词集中的每个触发词,对非结构化文本进行第一次匹配操作,得到含有该触发词的一个以上的匹配词组,将每个匹配词组所在的句子以及前一个和后一个句子抽取出来;将抽取出的所有句子中的重复句子去除,剩下的句子组成实体文本集;触发词集中的触发词包含在关键词库中。
81.对于能与多个触发词相匹配的单个匹配词组,将其匹配到一个设定的触发词,该触发词与多个触发词均不相同。
82.组成第二实体集的操作为:根据设定的关键词集中的每个关键词,对实体文本集的每个句子进行第二次匹配操作,得到含有该关键词的若干个实体,组成若干个键值对;所有的键值对组成第二实体集;关键词集中的关键词包含在关键词库中。
83.合并模块:
84.用于将第一实体集和第二实体集合并为最终实体集。
85.本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。