一种知识图谱构建方法、装置和存储介质与流程

文档序号:32296486发布日期:2022-11-23 03:16阅读:75来源:国知局
一种知识图谱构建方法、装置和存储介质与流程

1.本技术涉及计算机数据处理技术领域,尤其涉及一种知识图谱构建方法、装置和存储介质。


背景技术:

2.制度是企业单位在管理领域中多年经验和智慧的沉淀,蕴涵了一个企业单位在各领域管理实践中的基本思想。与此同时,制度作为企业单位生产活动的主要方向和方式指导,其制定的依据是否符合规定、内容是否符合要求、制度之间是否存在相互关系、哪些是已经废止制度、哪些是在行制度、哪些是本从事领域相关制度等等问题,严重干扰生产和相关管理人员正常生产经营活动,或者极大地增加了一线人员的获取和理解成本,从而造成生产效率低。


技术实现要素:

3.本技术提供了一种知识图谱构建方法、装置和存储介质,能够快速高效地构建知识图谱,从而不仅可以精准且全面地展示制度信息,提升知识图谱构建效率;而且还可以降低制度审计和制度理解的难度,提高生产效率。
4.本技术的技术方案是这样实现的:
5.第一方面,本技术实施例提供了一种知识图谱构建方法,该方法包括:
6.获取待处理制度数据;
7.利用预设识别模型对所述待处理制度数据进行分析,确定制度正文数据和/ 或制度发文数据;
8.对所述制度正文数据和/或制度发文数据进行知识抽取,确定目标构建信息;
9.对所述目标构建信息进行图谱构建处理,得到目标知识图谱。
10.第二方面,本技术实施例提供了一种知识图谱构建装置,该知识图谱构建装置包括获取单元、识别单元、抽取单元和构建单元;其中,
11.所述获取单元,配置为获取待处理制度数据;
12.所述识别单元,配置为利用预设识别模型对所述待处理制度数据进行分析,确定制度正文数据和/或制度发文数据;
13.所述抽取单元,配置为对所述制度正文数据和/或制度发文数据进行知识抽取,确定目标构建信息;
14.所述构建单元,配置为对所述目标构建信息进行图谱构建处理,得到目标知识图谱。
15.第三方面,本技术实施例提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,该计算机程序被多个处理器执行时实现如第一方面所述方法的步骤。
16.本技术实施例提供了一种知识图谱构建方法、装置和存储介质,获取待处理制度数据;利用预设识别模型对所述待处理制度数据进行分析,确定制度正文数据和/或制度发
文数据;对所述制度正文数据和/或制度发文数据进行知识抽取,确定目标构建信息;对所述目标构建信息进行图谱构建处理,得到目标知识图谱。这样,通过预设识别模型能够对待处理制度数据进行正文/发文识别,无需人工标注,降低了人力成本,而且通过知识抽取能够准确地获得目标构建信息(如制度关系信息、制度实体信息和制度属性信息等),提高了构建知识图谱的速度和准确性;同时通过知识图谱还能够梳理不同制度之间的关系,精准且全面地展示制度相关信息,降低制度审计和制度理解的难度,从而提高生产效率。
附图说明
17.图1为本技术实施例提供的一种知识图谱构建方法的流程示意图;
18.图2为本技术实施例提供的一种知识图谱的组成结构示意图;
19.图3为本技术实施例提供的一种知识图谱构建系统的逻辑结构示意图;
20.图4为本技术实施例提供的另一种知识图谱构建方法的流程示意图;
21.图5为本技术实施例提供的又一种知识图谱构建方法的流程示意图;
22.图6为本技术实施例提供的再一种知识图谱构建方法的流程示意图;
23.图7为本技术实施例提供的再一种知识图谱构建方法的流程示意图;
24.图8为本技术实施例提供的再一种知识图谱构建方法的流程示意图;
25.图9为本技术实施例提供的再一种知识图谱构建方法的流程示意图;
26.图10为本技术实施例提供的一种知识图谱构建装置的结构示意图;
27.图11为本技术实施例提供的一种电子设备的硬件结构示意图;
28.图12为本技术实施例提供的另一种电子设备的结构示意图。
具体实施方式
29.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。
30.制度是企业单位在管理领域中多年经验和智慧的沉淀,蕴涵了一个企业单位在各领域管理实践中的基本思想。制度之于企业相当于法律之于国家,正是因为有了一个个规章制度,一个企业才有了规矩可寻,才保证了企业生产有序进行。与此同时,制度作为企业单位生产活动的主要方向和方式指导,其制定的依据是否合规,内容是否符合要求,制度之间是否存在相互关系,哪些是已经废止制度,哪些是在行制度,哪些是本从事领域相关制度等等问题,严重干扰生产和相关管理人员正常生产经营活动,或极大的增加了一线人员的获取和理解成本从而降低生产效率。为此,构建一种易于获取、能够精准全面展示制度信息的知识图谱对企业而言具有十分重要的价值。
31.基于此,本技术实施例提供了一种知识图谱构建方法,该方法的基本思想为:获取待处理制度数据;利用预设识别模型对所述待处理制度数据进行分析,确定制度正文数据和/或制度发文数据;对所述制度正文数据和/或制度发文数据进行知识抽取,确定目标构建信息;对所述目标构建信息进行图谱构建处理,得到目标知识图谱。这样,通过预设识别模型能够对待处理制度数据进行正文/ 发文识别,无需人工标注,降低了人力成本,而且通过知识抽取能够准确地获得目标构建信息(如制度关系信息、制度实体信息和制度属性信息等),提高了构建知识图谱的速度和准确性;同时通过知识图谱还能够为原本杂乱无章的
制度提供清晰脉络,便于制度精准搜索、制度全面理解以及制度合规审计,降低制度审计和制度理解的难度,从而提高生产效率。
32.下面将结合附图对本技术各实施例进行详细说明。
33.在本技术的一实施例中,参见图1,其示出了本技术实施例提供的一种知识图谱构建方法的流程示意图。如图1所示,该方法可以包括:
34.s101:获取待处理制度数据。
35.需要说明的是,本技术实施例可以应用于企业制度管理方面,通过自然语言处理结合神经网络算法,能够梳理多种来源的制度文件,在制度领域提供一种自动化、智能化的知识图谱构建流程。
36.对于企业来说,为了保证生产活动的有序进行,经常存在多种多样的规章制度。企业的业务内容越多、规模越大、年限越长,那么该企业的制度文件就会越多,此时制度文件的管理也就越为棘手。一方面,对于管理人员来说,需要对制度文件进行合规审计和分析整理,以便于后续修订旧制度或者制定新制度;另一方面,对于生产人员来说,需要了解哪些制度是在行制度,以及哪些是自身工作相关的制度。因此,如果无法高效地对制度进行管理,会严重干扰生产和相关管理人员正常生产经营活动,或极大的增加了一线人员的获取和理解成本从而降低生产效率。基于此,本技术实施例针对制度领域中存在的多源异构数据设计了一种知识图谱自动化构建方法和装置,对于制度精准搜索、制度合规审计等具有重要的应用价值。
37.还需要说明的是,为了构建制度领域的知识图谱,需要获取待处理制度数据。应理解,待处理制度数据是以具体的文件形式进行存放的,也就是说,待处理制度数据中可能包括多份不同的文件,而且后续的一切处理和分析仍然会保持文件的形式,并不会将不同文件进行合并或重组。换句话说,在后续说明中,所涉及到的原始制度数据、标准制度数据、制度正文数据、制度发文数据均可能包括多份不同的文件。
38.在这里,根据制定年限和来源不同,制度文件可能包括多种类型和多种格式,因此需要对其进行预处理,才能够得到用于分析的待处理制度数据。因此,在一些实施例中,所述获取待处理制度数据,可以包括:
39.对原始制度数据进行数据清洗处理,得到标准制度数据;其中,所述数据清洗处理至少包括下述的其中一项:统一规则处理、统一类型处理和统一格式处理;
40.对所述标准制度数据进行去重处理,得到所述待处理制度数据。
41.需要说明的是,面对多源异构的原始制度数据,依次进行数据清洗处理和去重处理。其中,
42.数据清洗处理是指将不同格式、不同类型的制度文件所提供的原始制度数据进行形式上的统一,从而得到标准制度数据。在这里,数据清洗处理至少包括下述的其中一项:统一规则处理、统一类型处理和统一格式处理。
43.对于标准制度数据而言,其中可能存在同一制度的两份文件数据。因此,针对标准制度数据,还需要通过去重处理将重复的制度数据进行选择性删除,使所构建的知识图谱简洁明了,避免过多的冗余数据。
44.需要说明的是,在制度领域,制度去重需要考虑制度文件的业务特性,不能简单进行制度正文文件内容比对,如此可能会造成制度缺失或影响制度相关审计。因此,本技术实
施例选择发文号和制度内容两个维度作为依据,通过对制度文件进行两两比较,实现重复文件的检出。
45.因此,以第一制度和第二制度为例,在一些实施例中,所述对所述标准制度数据进行去重处理,得到所述待处理制度数据,可以包括:
46.在所述标准制度数据中确定第一制度文件和第二制度文件;
47.对第一制度文件的制度正文和发文号进行编码处理,得到第一制度编码,以及对第二制度文件的制度正文和发文号进行编码处理,得到第二制度编码;
48.计算所述第一制度编码和所述第二制度编码之间的编码距离,根据所述编码距离确定所述第一制度文件和所述第二制度文件是否重复;
49.若所述第一制度文件和所述第二制度文件重复,则判断所述第一制度文件和所述第二制度文件的来源是否相同;
50.若所述第一制度文件和所述第二制度文件的来源相同,则对所述第一制度文件和所述第二制度文件进行随机删除处理;
51.若所述第一制度文件和所述第二制度文件的来源不同,则判断所述第一制度文件和所述第二制度文件的级别是否相同;
52.在所述第一制度文件和所述第二制度文件的级别相同的情况下,对所述第一制度文件和所述第二制度文件进行随机删除处理;
53.在所述第一制度文件和所述第二制度文件的级别不同的情况下,在所述第一制度文件和所述第二制度文件之中删除级别较低的制度文件。
54.在这里,编码处理可以采用多种编码方式,例如simhash(一种局部敏感哈希编码算法)编码。当编码方式为simhash编码时,则编码距离为海明距离。如果海明距离小于预设阈值,则判定第一制度文件和第二制度文件重复;如果海明距离大于或等于预设阈值,则判定第一制度文件和第二制度文件不重复。
55.这样,经过以上处理,能够对异构化的制度源数据进行统一整理,得到待处理制度数据,以便后续构建知识图谱。
56.s102:利用预设识别模型对所述待处理制度数据进行分析,确定制度正文数据和/或制度发文数据。
57.需要说明的是,相比较于其他类型的文献,制度文件具有相对标准的格式,具体地,制度文件一般包括制度正文和制度发文两部分。其中,制度发文一般是较短的文本,用于记载该制度的制定时间、制定依据、制定目的等信息;制度正文一般是超长文本,用以记载该制度的具体条款。从以上可以看出,通过制度发文和制度正文,能够获取一个制度文件的主要信息,也是后续进行知识提取的主要依据。
58.在实际应用中,由于在上传制度数据时并没有进行正文发文区分,而且也无法通过简单的识别方法判定制度正文和制度发文,因此对后续知识抽取造成很大的干扰。而且,对于具体一份文件来讲,有可能是某一制度的正文文件,或者是某一制度的发文文件,或者同时是正文文件和发文文件,或者既不是正文文件也不是发文文件,所以正文发文检测可以转化为多分类问题,运用文本分类的方法进行检测。换句话说,本技术实施例利用预设识别模型对待处理数据进行分析,从而确定制度正文数据和制度发文数据。
59.还需要说明的是,所述预设识别模型包括正文分类器和发文分类器,因此,在一些
实施例中,所述利用预设识别模型对所述待处理制度数据进行分析,确定制度正文数据和/或制度发文数据,可以包括:
60.对所述待处理制度数据进行分词处理,得到待处理词典;
61.对所述待处理制度数据进行统计分析,确定所述待处理词典对应的词语权值集合;
62.利用所述发文分类器对所述词语权值集合进行计算,得到第一分类结果;以及利用所述正文分类器对所述词语权值集合进行计算,得到第二分类结果;
63.根据所述第一分类结果和所述第二分类结果,确定所述制度正文数据和/ 或制度发文数据。
64.需要说明的是,预设识别模型的工作原理包括:
65.首先,以待处理制度数据中的每个具体文件为单位进行分词处理,得到一个或多个待处理词典;在这里,每个具体文件都会对应一个待处理词典;
66.其次,针对待处理制度数据中的每个具体文件进行统计分析,确定每个待处理词典对应的词语权值集合;
67.然后,通过正文分类器对每个待处理词典的词语权值集合进行分类计算,得到第一分类结果;通过发文分类器对待处理词典的词语权值集合进行分类计算,得到第二分类结果;
68.最后,根据这两个分类结果,确定每个具体文件是正文、发文、同是正文发文或者非正文也非发文,最终确定制度正文数据和制度发文数据。
69.这样,通过预设识别模型能够得到制度正文数据和制度发文数据,以便后续分别对制度正文数据和制度发文数据进行知识抽取。
70.s103:对所述制度正文数据和/或制度发文数据进行知识抽取,确定目标构建信息。
71.需要说明的是,从制度正文数据和/或制度发文数据中进行知识抽取,以获得相应的目标构建信息。
72.在本技术实施例中,知识图谱的本体结构主要包含三个部分:制度实体、制度关系和制度属性。其中,
73.(1)制度实体(或称为实体)是指一个制度名称,如某公司采购流程管理办法;制度实体又根据制度关系分为制度主体(或称为主体)和制度客体(或称为客体),主体和客体构成知识图谱本体结构的核心;
74.(2)制度关系是指制度主体和制度客体之间的关系,制度关系与制度实体共同组成制度知识三元组:制度主体、制度客体、制度关系。知识三元组是构成制度知识图谱的主要依据。示例性地,可以定义三种制度关系:依赖关系、替代关系和修订关系。其中,依赖关系是指制度制订的依据,如制度1根据制度2的要求制定,则制度1依赖于制度2;替代关系是指一个制度制订发行,导致另一个制度同时废止,则二者具有替代关系;修订关系是指在原制度基础上进行内容上的修改,或增加或删减或改变描述形式,形成新的制度版本,则二者具有修订关系;
75.(3)制度属性是指一个制度的基本信息,用于描述制度相关信息。示例性地,可以将制度属性分为两个部分:制度基本属性和制度内容条款。其中,制度基本属性构成制度知
识图谱属性图,全面展示制度信息,包括制度发文号、印发单位、印发时间、解释部门、所属领域、制度标签、在行废止状态等属性;制度内容条款将制度正文文件按规律分割成具体条款,便于业务人员直接查看相应的制度条款。
76.参见图2,其示出了本技术实施例提供的一种知识图谱的结构示意图。如图 2所示,n1、n2、n3和n4代表制度实体,s1-s7代表制度属性,连接制度实体的边为制度关系,边为有向边,指明制度的关系方向。例如,制度实体n2替代制度实体n1,制度实体n3修订制度实体n2,制度实体n1依赖制度实体n3。
77.从以上可以看出,制度实体、制度关系、制度属性构成了制度知识图谱的主体内容,以制度实体为核心,以制度关系为连接构成知识图谱的基本框架,结合制度属性作为实体属性图,三者共同构成知识丰富、语义明确的制度知识图谱。
78.在实际应用场景中,对于具体的一个知识图谱,必然存在制度实体,但是有可能不存在制度关系和制度属性。对于具体的一个制度,在制度实体方面,必然存在制度主体,但是有可能不存在制度客体(即制度客体为空);在制度关系方面,可能存在一种或多种具体的关系,也可能不存在/抽取不到任何一种具体的关系(即制度关系为空);在制度属性方面,也有可能抽取不到任何一种具体的属性值(即制度属性为空)。
79.换句话说,制度实体信息可以仅包括制度主体信息,或者,制度实体信息可以包括制度主体信息和制度客体信息;制度关系信息可以为预设空信息,或者,制度关系信息也可以至少包括下述的其中一项:依赖关系、替换关系和修订关系;制度属性信息可以为预设空信息,或者,制度属性信息也可以至少包括下述的其中一项:发文号、印发时间、印发单位、解释部门、在行废止状态、制度标签、制度领域和制度内容条款。
80.还需要说明的是,对于制度发文数据,其中可能存在制度实体信息、制度关系信息和制度属性信息;对于制度正文数据,其中可能存在制度实体信息、制度关系信息和制度属性信息。而且,制度发文数据中的制度实体信息肯定是包含制度正文的制度实体信息的(正文仅包括制度主体,发文除了制度主体外还可能包含制度客体);制度发文数据中的制度属性信息和制度正文中的制度属性信息可能包含不同的内容。
81.一般来说,一个制度会同时存在制度正文数据和制度发文数据,而特殊情况下也可能仅存在正文数据或者仅存在发文数据。因此,在不同的情况下抽取方法的具体流程并不相同:
82.在仅存在制度正文数据的情况下,在一些实施例中,所述对所述制度正文数据和/或制度发文数据进行知识抽取,确定目标构建信息,可以包括:
83.利用预设实体抽取模型对所述制度正文数据进行实体抽取,得到制度实体信息;
84.利用预设属性抽取模型对所述制度正文数据进行属性抽取,得到制度属性信息;
85.将所述制度实体信息和制度属性信息确定为所述目标构建信息。
86.需要说明的是,如果仅存在制度正文数据,利用预设实体抽取模型和预设属性抽取模型分别进行知识抽取,从而得到制度实体信息和制度属性信息,即最终的目标构建信息包括制度实体信息和制度属性信息。
87.进一步地,在仅存在制度发文数据的情况下,在一些实施例中,所述对所述制度正文数据和/或制度发文数据进行知识抽取,确定目标构建信息,可以包括:
88.利用预设实体抽取模型对所述制度发文数据进行实体抽取,得到制度实体信息;
89.利用预设属性抽取模型对所述制度发文数据进行属性抽取,得到制度属性信息;
90.在所述制度实体信息指示存在一个制度实体的情况下,将所述制度实体信息和所述制度属性信息确定为所述目标构建信息;
91.在所述制度实体信息指示存在至少两个制度实体的情况下,利用预设关系抽取模型对所述制度发文数据进行关系抽取,得到制度关系信息,并将所述制度实体信息、所述制度属性信息和所述制度关系信息确定为所述目标构建信息。需要说明的是,如果仅存在制度发文数据,则利用预设实体抽取模型和预设属性抽取模型分别从制度发文数据中确定制度实体信息和制度属性信息。
92.另外,如果仅能确定一个制度实体,那么最终的目标构建信息仅包括制度实体信息和制度属性信息;如果能够确定两个及以上的制度实体,此时还需要利用预设关系抽取模型从制度发文数据中确定制度关系信息,那么最终的目标构建信息包括制度实体信息、制度属性信息和制度关系信息。
93.进一步地,在存在制度发文数据和制度正文数据的情况下,所述对所述制度正文数据和/或制度发文数据进行知识抽取,确定目标构建信息,可以包括:
94.利用预设实体抽取模型对所述制度发文数据进行实体抽取,得到制度实体信息;
95.利用预设属性抽取模型对所述制度发文数据和所述制度正文数据进行属性抽取,得到制度属性信息;
96.在所述制度实体信息指示存在一个制度实体的情况下,将所述制度实体信息和所述制度属性信息确定为所述目标构建信息;
97.在所述制度实体信息指示存在至少两个制度实体的情况下,利用预设关系抽取模型对所述制度发文数据进行关系抽取,得到制度关系信息,并将所述制度实体信息、所述制度关系信息和所述制度属性信息确定为所述目标构建信息。需要说明的是,在同时具有制度发文数据和制度正文数据的情况下,由于制度正文数据并不会贡献额外的制度实体信息和制度关系信息,所以可以仅在制度发文数据中抽取制度实体信息和制度关系信息;但是由于制度发文数据和制度正文数据可能贡献不同的属性信息,因此需要从二者中同时进行属性抽取,从而得到制度属性信息。
98.进一步地,在一些实施例中,所述利用预设属性抽取模型对所述制度发文数据和所述制度正文数据进行属性抽取,得到制度属性信息,可以包括:
99.利用所述预设属性抽取模型对所述制度发文数据进行一次属性抽取,得到一次属性抽取结果;
100.根据所述一次属性抽取结果,确定待抽取属性条目;
101.根据所述待抽取属性条目,利用所述预设属性抽取模型对所述制度正文数据进行二次属性抽取,得到二次属性抽取结果;
102.根据所述一次属性抽取结果和所述二次属性抽取结果,得到所述制度属性信息。
103.需要说明的是,考虑到计算效率的问题,对于制度属性信息,首先通过预设属性模型从制度发文数据中进行一次属性抽取;然后,根据一次属性抽取结果,确定那些没有抽取到的属性条目,即待抽取属性条目;最后,根据待抽取属性条目,再次从制度正文数据中进行抽取。这样,根据一次属性抽取结果和二次属性抽取结果,能够共同确定制度属性信息。也就是说,在进行属性抽取时,优先在制度发文数据中进行抽取,对于抽取不到的属性条
目,继续在制度正文数据中进行抽取。
104.还需要说明的是,由于待处理制度数据中可能包括不同制度的文件,所以知识提取也必须以制度为单位进行处理。假定制度正文数据包括制度1的正文文件a和制度3的正文文件d,制度发文数据包括制度2的发文文件b和制度 3的发文文件c。
105.那么,针对制度1,需要利用预设实体抽取模型和预设属性抽取模型分别从正文文件a中确定制度实体信息和制度属性信息;
106.针对制度2,需要利用预设实体抽取模型从发文文件b中确定制度实体信息,利用预设属性抽取模型从发文文件b中确定制度属性信息,且在存在至少两个制度实体的情况下,还需要利用预设关系抽取模型从发文文件b中确定制度关系信息;
107.针对制度3,需要利用预设实体抽取模型从发文文件c中确定制度实体信息,且在存在至少两个制度实体的情况下,还需要利用预设关系抽取模型从发文文件c中确定制度关系信息;另外,利用预设属性抽取模型从发文文件c中得到一部分属性信息,并针对未知的属性条目,再利用预设属性抽取模型从正文文件d中进行抽取。例如,如果从发文文件c中抽取不到制度客体,则可以确定制度客体为空,进而制度关系信息为预设空信息,无需从正文文件d中重复抽取;但是如果从发文文件c中抽取不到任何属性信息,那么继续针对正文文件d进行所有属性条目的属性信息抽取。
108.进一步地,在一些实施例中,该方法还可以包括:
109.确定预设子模型;其中,所述预设模型包括:词向量bert子模型、双向长短期记忆人工神经网络bi-lstm子模型、条件随机场crm子模型、分类 softmax子模型、正则匹配子模型和专家知识子模型;
110.根据所述bert子模型、所述bi-lstm子模型和所述crm子模型,建立预设实体抽取模型;
111.根据所述bert子模型和所述softmax子模型,建立预设关系抽取模型;
112.根据所述正则匹配子模型和所述专家知识子模型,建立预设属性抽取模型。
113.需要说明的是,本技术实施例基于词向量bert(bidirectional encoderrepresentation from transformers)子模型(或称为bert算法)、双向长短期记忆人工神经网络(bi-directional long short-term memory,bi-lstm)子模型和 (conditional random field algorithm,crf)子模型(或称为crf算法)来构建第一神经网络,然后利用第一神经网络对第一样本数据集合(第一样本数据集合包含多个实体样本数据)进行特征学习,也就得到了预设实体抽取模型。
114.还需要说明的是,本技术实施例基于bert子模型、softmax子模型(或称为softmax层)以及一个全连接层建立第二神经网络,然后利用第二神经网络对第二样本数据集合(第二样本数据集合包含多个关系样本数据)进行特征学习,就得到了预设关系抽取模型。
115.还需要说明的是,对于制度属性信息而言,例如发文号、发文日期、领域、条款等内容,一般具有相对标准的格式,可以基于正则匹配子模型(或称为正则匹配算法)和一些专家知识子模型(或称为专家知识库),建立预设属性抽取模型。
116.以上所提供的知识提取模型均为具体实施方案,并不构成严格限制,也可采用其他可行的方法进行知识提取。
117.进一步地,在一些实施例中,在所述制度实体信息指示存在至少两个制度实体的
情况下,所述至少两个制度实体包括至少一个制度主体和至少一个制度客体,且所述至少一个制度主体和所述至少一个制度客体之间存在唯一的制度关系;
118.相应地,所述利用预设关系抽取模型对所述制度发文数据进行关系抽取,得到制度关系信息,可以包括:
119.对所述制度发文数据进行切割,确定至少一个待处理语句;其中,所述至少一个待处理语句中的每一待处理语句均包含一个制度主体和一个制度客体;
120.对所述至少一个待处理语句进行主客体标记,得到至少一个目标语句;
121.对所述至少一个目标语句进行特征提取,确定所述至少一个目标语句各自的语义特征、制度主体特征和制度客体特征;
122.根据所述至少一个目标语句各自的语义特征、制度主体特征和制度客体特征,确定所述至少一个目标语句各自的实体关系,并将所述至少一个目标语句各自的实体关系确定为所述制度关系信息;
123.其中,所述制度主体特征至少包括主体语义特征和主体位置特征,所述制度客体特征至少包括客体语义特征和客体位置特征。
124.需要说明的是,在存在至少两个制度实体时,需要进行制度关系抽取。应理解,在至少两个制度实体之中,必然存在至少一个制度主体和至少一个制度客体,且每一对“制度主体和制度客体”之间均存在唯一确定的制度关系。
125.制度关系抽取本质上为分类问题,因制度关系分为依赖、替代和修订三种关系,所以制度关系抽取的本质为三分类问题。具体地,在抽取制度关系信息时,包括以下步骤:
126.第一步,对所述制度发文数据进行切割,确定至少一个待处理语句,并对所述至少一个待处理语句进行主客体标记处理,得到至少一个目标语句。
127.在这里,因制度发文可能包含多个制度实体,同时蕴涵多种制度关系,所以对于存在三个以上制度实体的情况,本技术实施例在进行关系抽取前还需要对制度发文进行切割,切割以制度实体所在的位置为依据,顺序切割包含两个制度实体的完整句子作为关系抽取的输入,例如制度发文包含n(n为大于1 的整数)个制度实体,则将制度发文切割为(n-1)个句子输入,即每一个待处理语句需要包括一个制度主体和一个制度客体。
128.另外,为了提高处理效率,将待处理语句的制度主体和制度客体进行分别标记,得到目标语句。
129.第二步,对目标语句进行特征提取,确定每个目标语句各自的语义特征、制度主体特征和制度客体特征。在这里,语义特征是指该目标语句的整体语义特征,制度主体特征是指制度主体的语义特征和位置特征,制度客体特征是指制度客体的语义特征和位置特征。也就是说,对于预设关系抽取模型,在利用 bert算法抽取每个目标语句中的特征后,还会在全连接层进行实体制度向量合并(语义特征和位置特征合并)以增加实体特征信息。
130.第三步,将每个目标语句各自的语义特征、制度主体特征和制度客体特征进行拼接,并利用softmax层对拼接后特征进行打分,从而得到与替代关系、修订关系和依赖关系分别对应的三个概率值,此时最大概率值所对应的关系即为确定每个目标语句的实体关系。
131.最后,根据每个目标语句的实体关系,进一步确定制度关系信息。
132.这样,通过以上处理,能够得到目标构建信息,从而后续可以进行制度图谱的构
建。
133.s104:对所述目标构建信息进行图谱构建处理,得到目标知识图谱。
134.还需要说明的是,如图2所示,在得到目标构建信息,按照已有方法进行图谱构建处理,就得到了目标知识图谱。
135.这样,本技术实施例致力于在知识图谱构建过程中形成一套兼顾效率和效果的自动化流程,为制度领域知识图谱的构建提供一种可行方案。通过制度的知识图谱,能够有效而全面的展现出制度本身复杂、隐晦的知识结构,便于对制度的精准理解,对面向制度的各种业务需求(搜索、审计等)有重要的应用价值。
136.除此之外,针对知识图谱的构建问题,在相关技术提供的一种技术方案中,设计了一种针对期刊文献的知识图谱,定义了期刊文献知识图谱的本体结构和实体抽取模型;然而,该技术方案仅在期刊文献领域运用自然言处理相关技术进行知识图谱构建,和本技术实施例的业务领域不同,而且期刊文献和制度文件的结构、性质、属性以及处理方法完全不同,该期刊文献的知识图谱结构无法适用制度领域,且缺少对于多源异构数据的处理方法。
137.在相关技术提供的另一种技术方案中,设计了一种针对案情的知识图谱,而且融合了结构化文本和非结构化文本,为案情精准推送提供了语义支撑。然而,该技术方案用于案情推送领域,侧重点在于具体自然语言处理技术的应用阐述,和本技术实施例的业务领域不同,而且知识图谱结构和相关算法设计无法适用制度领域,且缺少对于知识图谱端到端的自动化构建全流程的设计。
138.本技术实施例提出的知识图谱构建方法解决了上述问题,具体表现在:(1) 构建制度领域知识图谱本体结构,为原本杂乱无章制度提供清晰脉络,便于制度精准搜索、制度全面理解以及制度合规审计等;(2)针对制度领域文本数据,结合制度领域先验知识设计制度实体识别、制度关系和制度属性抽取方法,抽取结果更准确;(3)设计统一文件系统模块,专注解决多源异构数据的统一问题,与后续关系、实体抽取等模块解耦,使知识图谱构建更具扩展性,提高了知识图谱构建的自动化程度;(4)从多源数据采集到数据预处理、知识抽取、图谱构建等全流程进行端到端自动化构建,减少人力成本,提升图谱构建效率。
139.本技术实施例提供了一种知识图谱构建方法,通过获取待处理制度数据;利用预设识别模型对所述待处理制度数据进行分析,确定制度正文数据和/或制度发文数据;对所述制度正文数据和/或制度发文数据进行知识抽取,确定目标构建信息(如制度关系信息、制度实体信息和制度属性信息等);对所述目标构建信息进行图谱构建处理,得到目标知识图谱。这样,通过预设识别模型能够对待处理制度数据进行正文/发文识别,无需人工标注,而且通过知识抽取能够准确地获得目标构建信息,提高了构建知识图谱的速度和准确性;除此之外,通过知识图谱还能够梳理不同制度之间的关系,精准且全面地展示制度相关信息,降低制度审计和制度理解的难度,最终提高了生产效率。
140.在本技术的另一实施例中,参见图3,其示出了本技术实施例提供的一种知识图谱构建系统20的逻辑结构示意图。如图3所示,该知识图谱构建系统 20包括知识图谱本体模块201、统一文件模块202和制度知识抽取模块203。
141.针对不同的制度源,知识图谱构建系统20设计了标准化的文件接入形式,例如可以通过超文本传输协议(hypertext transfer protocol,http)、文件传输协议(file transfer protocol,ftp)读入不同的制度文件。
142.知识图谱本体模块201
143.如图3所示,知识图谱本体模块201包括制度实体、制度关系和制度属性;其中,制度实体可以包括制度主体和制度客体;制度关系可以包括依赖、替代和修订;制度属性可以包括基本属性和内容条款,且基本属性还可以细分为制度发文号、印发单位、印发时间、解释部门、所属领域、制度标签、在行废止状态等属性。
144.以上制度实体、制度关系和制度属性共同构成制度领域知识图谱本体结构,如图2所示,知识图谱可以理解为用于指示制度实体、制度关系和制度属性的网络示意图。
145.统一文件系统模块202
146.如图3所示,统一文件系统模块202包括正文识别、发文识别、制度去重、统一规则、统一格式、统一类型和统一存储;具体地,统一规则主要是指针对不同的数据来源进行相应的规则适配,如标记来源、存储目录标准化,使之具备公司、领域分类属性等;统一类型,主要是将源数据的文件类型(例如doc、 html等)转换成标准文件类型(例如pdf类型),便于流程自动化;统一格式主要是根据标准文件类型提取文档文本内容。
147.这样,统一文件系统模块202实现了对多源制度数据的标准化处理和落地存储,以便后续进行知识抽取。
148.制度知识抽取模块203
149.如图3所示,制度知识抽取模块203包括实体抽取、关系抽取和属性抽取,以便得到待处理制度数据的制度实体信息、制度关系信息和制度属性信息,从而能够生成知识图谱。
150.应理解,图3示出的仅是知识图谱构建系统20的逻辑结构示意图,在实际应用过程中,可以按照执行先后顺序进一步设计相应的流程,以提高工作效率。例如,由于进行统一规则处理时,可能需要用到文件的来源信息、发文号信息等进行来源标记和统一存储,所以抽取来源信息和发文号虽然在逻辑上归属于制度知识抽取模块203,却可以设计在统一规则处理之前。
151.应理解,该知识图谱构建系统20同样可以支持后期的删除、修改、新增等操作,其原理可参见构建原理,不作赘述。
152.本技术实施例提供了一种知识图谱构建方法,通过本实施例对前述实施例的详细阐述,从中可以看出,本技术实施例致力于在知识图谱构建过程中形成一套兼顾效率和效果的自动化流程,能够需兼顾效率和效果,为制度领域知识图谱的构建提供一种可行方案。在得到知识图谱之后,可以进一步实现图谱可视化、制度搜索和制度审计等功能,以便于工作人员和管理人员更好的理解企业的制度。
153.在本技术的又一实施例中,参见图4,其示出了本技术实施例提供的另一种知识图谱构建方法的流程示意图。如图4所示,该方法可以包括:
154.s301:统一规则。
155.需要说明的是,对多个原始制度文件进行统一规则处理,以得到多个规则一致的原始制度文件。在这里,统一规则处理是指按照预先设定的规则对原始制度文件进行处理,例如标记原始制度文件的来源、按照发文号、实体名称将同一制度的所有材料存放在相同文件夹下。
156.s302:统一类型。
157.需要说明的是,对多个规则一致的原始制度文件进行统一类型处理,以得到多个
类型一致的原始制度文件。
158.s303:统一格式。
159.需要说明的是,对多个类型一致的原始制度文件进行统一格式处理,以得到多个格式一致的原始制度文件。
160.这样,统一规则、统一类型、统一格式作为数据清洗的三个主要步骤,使得不同来源的原始制度文件形成类型、格式统一的高质量制度数据(相当于前述的标准制度数据),为知识图谱自动化构建奠定基础。
161.s304:制度去重。
162.需要说明的是,在得到标准制度数据之后,还需要进行去重处理。在制度领域,制度去重需要考虑制度文件的业务特性,如果只是根据制度正文的内容比对决定是否重复,可能会误删除一些不同分公司的制度,从而造成制度缺失或影响制度相关审计。具体地,参见图5,其示出了本技术实施例提供的本技术实施例提供的又一种知识图谱构建方法的流程示意图。如图5所示,制度文件去重的具体流程可以包括:
163.s401:对第一制度文件和第二制度文件进行simhash编码,得到两个制度编码。
164.需要说明的是,通过对不同的制度进行两两检测,以确定是否存在制度重复。为了方便说明,将需要进行去重处理的两个制度文件分别称为第一制度文件和第二制度文件。在这里,第一制度文件和第二制度文件均为制度正文文件。
165.需要说明的是,制度去重时的依据可以根据实际使用场景自行确定。在本技术实施例中,通过检测制度正文和发文号来检测两个制度是否重复。将第一制度文件的制度正文和发文号进行simhash编码,以及将第二制度文件的制度正文和发文号进行simhash编码,从而得到两个制度编码。
166.应理解,经过前述的数据清洗处理,已经按照发文号/实体名称将同一制度的所有材料存放在相同文件夹下,所以此时可以容易地获得某一个制度文件的制度正文和发文号。
167.s402:计算两个制度编码之间的汉明距离。
168.需要说明的是,计算两个制度编码之间的汉明距离(或称为海明距离),以表征两个制度编码的相似程度。
169.s403:判断汉明距离是否小于预设阈值。
170.在这里,对于步骤s403说,如果判断结果为否,那么执行步骤s404;如果判断结果为是,那么执行步骤s405。
171.需要说明的是,将汉明距离与预设阈值进行比较,从而确定第一制度文件和第二制度文件是否重复。
172.s404:确定第一制度文件和第二制度文件不重复。
173.需要说明的是,若两个制度编码之间的汉明距离大于或等于预设阈值,判定第一制度文件和第二制度文件不重复,无需对其进行删除。
174.s405:判断第一制度文件和第二制度文件是否为同一来源。
175.在这里,对于步骤s405来说,如果判断结果为否,那么执行步骤s406;如果判断结果为是,那么执行步骤s407。
176.需要说明的是,若两个制度编码之间的汉明距离小于预设阈值,判定第一制度文
件和第二制度文件重复。此时,需要判断第一制度文件和第二制度文件是否为同一来源,以便确定删除二者中的哪一个。
177.s406:对第一制度文件和第二制度文件进行级别判定。
178.在这里,对于步骤s406,如果级别判定结果为同级,那么执行步骤s407;如果级别判定结果为上下级,那么执行步骤s408。
179.需要说明的是,对于来源不同的两个重复制度,需要对其进行级别判定,看两者是相同级别的文件还是不同级别的文件,以便确定删除二者中的哪一个。
180.s407:在第一制度文件和第二制度文件中进行随机删除。
181.需要说明的是,在判定第一制度文件和第二制度文件重复的情况下,如果第一制度文件和第二制度文件的来源相同,或者第一制度文件和第二制度文件的级别相同,则可以随机删除两者之中的一个。
182.s408:删除下级对应的制度文件。
183.需要说明的是,在判定第一制度文件和第二制度文件重复的情况下,如果第一制度文件和第二制度文件的级别不同,选择级别较低的制度文件进行删除。
184.也就是说,本技术实施例将制度发文号和制度内容合并进行simhash编码,根据编码的汉明距离判定制度是否重复,汉明距离小于某个阈值则判定制度重复,阈值的设定需根据数据情况通过实验获得。根据simhash编码确认为重复的制度需要从上层应用角度考虑设置去重策略。
185.由于引入了制度发文号,所以那些制度正文内容相同,但在多个分公司实行的制度(发文号不同)并不会被判定为重复文件进行删除。针对同一来源制度且判定重复的两个制度,可任意删除一个;针对不同来源且重复的两个制度,需根据来源单位的标记进行组织的上下级判定后,保留较高组织级别的制度(同级别随机删除)。
186.这样,通过对标准制度数据进行去重处理,删除一些冗余数据,得到待处理制度数据。
187.s305:正文识别。
188.s306:发文识别。
189.在这里,步骤s305和步骤s306可以并行执行,两者的执行顺序不分先后。具体地,在步骤s304之后,可以先进行正文识别,然后再进行发文识别,也可以先进行发文识别,再进行正文识别,还可以同时进行正文识别和发文识别。
190.需要说明的是,制度正文和发文作为制度数据的主要组成部分,通常以文本的形式存在且无法判定正文和发文,因此对后续知识抽取造成很大的干扰。因采集的制度文件并非只有正文和发文,因此对正文和发文的检测需考虑非正文或发文情况,因此正文发文检测可以转化为多分类问题,运用文本分类的方法进行检测。另外,在文本分类领域,具有长文本和短文本之分,需要根据分类对象选择相应的算法。
191.针对多重类别问题,本技术实施例从训练集构建难易程度、模型更新部署的灵活性以及模型效果方面考虑,采用集成策略将正文发文识别分成两个二分类问题,两个分类器分别解决正文和发文分类的问题,然后将两个分类器结果组合,作为最终分类输出;针对长短文本问题,本技术实施例采用适用于文本领域且擅长处理高维空间分类问题的支持向量机(support vector machines, svm)作为基分类器。
192.也就是说,本技术实施例提供了一种预设识别模型用于正文和发文分类问题,而且预设识别模型至少包括正文分类器和发文分类器。参见图6,其示出了本技术实施例提供的再一种知识图谱构建方法的流程示意图。如图6所示,预设识别模型的工作过程包括如下步骤:
193.s501:读取待处理制度文件。
194.需要说明的是,为了方便说明,以待处理制度文件表示待处理制度数据中的需要进行发文正文识别的具体一个制度文件。
195.s502:对待处理制度文件进行分词处理。
196.需要说明的是,对待处理制度文件进行分词处理,能够得到待处理制度文件的词典,以便根据词频来对待处理制度文件进行分类。
197.s503:利用词频-逆向文件频率tf-idf算法进行权重计算。
198.需要说明的是,利用词频-逆向文件频率(term frequency-inverse documentfrequency,tf-idf)算法进行权重计算,以得到不同词语所对应的词频。
199.s504:利用正文分类器进行分类。
200.s505:利用发文分类器进行分类
201.在这里,步骤s504和步骤s505可以并行执行,两者的执行顺序不分先后。具体地,在步骤s503之后,可以利用正文分类器进行分类,然后再利用发文分类器进行分类;也可以先利用发文分类器进行分类,再利用正文分类器进行分类;还可以同时利用正文分类器进行分类和利用发文分类器进行分类。
202.具体地,根据正文分类器和发文分类器的分类结果,可以存在以下四种情况:(1)若正文分类器的分类结果为正文,且发文分类器的分类结果为其他,那么待处理文件为正文文件;(2)若正文分类器的分类结果为正文,且发文分类器的分类结果为发文,那么待处理文件即是正文文件也是发文文件;(3)若正文分类器的分类结果为其他,且发文分类器的分类结果为发文,那么待处理文件是发文文件;(4)若正文分类器的分类结果为其他,且发文分类器的分类结果为其他,那么待处理文件即非正文文件也非发文文件。
203.这样,通过以上处理,可以确定待处理制度数据中的每一制度文件是正文、发文、兼为正文发文、或者既非正文也非发文,从而确定制度正文数据和制度发文数据。
204.s305:利用文件系统进行存储。
205.需要说明的是,在经过以上处理后,将异构化的制度文件进行了规则统一、格式统一、类型统一、去重处理,而且已经确定了每个制度文件是正文还是发文,可以统一存储在文件系统中,以便于后续进行知识抽取和知识图谱构建。
206.应理解,本技术实施例所示出的同样是统一文件系统的逻辑流程示意图,其中具体步骤的执行前后顺序在实际应用过程中可以先后调整。例如,由于在制度去重步骤需要发文号和制度正文,而发文号提取严格上属于制度知识提取模块的工作内容,制度正文需要在进行正文发文识别后才能获得,因此在实际应用中可以进行相应调整,按照执行顺序进行涉及相应流程。
207.综上所述,知识图谱构建在制度数据的基础之上,制度数据作为自动化构建知识图谱最大的瓶颈之一,对知识图谱的构建起到至关重要的作用。由于企业组织庞大、制度类型结构繁杂,导致制度数据多样性突出,具体表现为制度数据源多样、制度数据结构不一,
进而导致知识抽取等上层构建过程需不断进行数据适配,给知识图谱自动化构建造成极大的不便,且形成的知识图谱不易扩展,无法满足企业级知识图谱的应用要求。
208.面对多源异构的制度数据,本技术实施例提供了统一文件系统模块将数据与知识抽取等上层模块解耦分离,最大限度的减少数据的变动对上层模块的影响,以此增加知识图谱构建过程的稳定和健壮性。
209.也就是说,统一文件系统模块主要提供两个功能:数据采集和数据统一。其中,数据采集功能主要解决制度数据多源性问题,面对制度数据来源跨单位、跨平台等复杂情况,本技术实施例在数据采集中制定文件系统接入统一规范,由此实现制度数据采集流程自动化;数据统一主要解决制度数据异构性问题,这里的异构性既包括结构化和非结构化差异(非结构化主要是文本数据),也包括多源数据格式的多样性、内容的重复性和必要基础信息的缺失,由此实现数据对知识图谱上层构建的稳定支持。
210.还需要说明的是,原始制度文件多以非结构化数据为主,因此以非结构化数据(具体为文本数据)为例进行后续说明。另外,由于结构化数据的质量较低,可以在非结构化数据处理之后,对结构化数据再进行类似处理,并将两种处理结果予以对齐,最终构建目标知识图谱。
211.本技术实施例提供了一种知识图谱构建方法,通过本实施例对前述实施例的详细阐述,从中可以看出,通过对待处理制度数据进行分析和知识提取,能够获取目标构建信息,进而利用目标构建信息来构建知识图谱,提高了构建知识图谱的速度和准确性,而且通过知识图谱还能够精准且全面地展示制度信息。
212.在本技术的再一实施例中,参见图7,其示出了本技术实施例提供的再一种知识图谱构建方法的流程示意图。如图7所示,该方法可以包括:
213.s601:从制度发文文件中进行制度实体抽取。
214.需要说明的是,本技术实施例以同时具有制度发文文件和制度正文文件的制度为例进行后续说明,从而阐述如何进行知识抽取。
215.首先,针对制度发文文件,利用预设实体抽取模型进行制度实体抽取。
216.还需要说明的是,在制度领域,制度实体不同于常见的命名实体,如地名、人名、组织名等,制度实体是一个带有多种命名实体以及其它信息的长串,如“某公司采购流程管理办法(2017版)”,其中包括“某公司”、“采购流程”、“管理办法”、“(2017版)”4个性质不同的组成部分,为了便于区分,本技术实施例依次将上述4部分命名为“org”、“are”、“typ”、“fix”相应代表4类实体:组织实体、领域实体、类型实体和后缀实体,对于一个制度实体而言一般包括上述四个或前三个部分,且通常顺序出现。
217.另外,在识别出至少两个制度实体的情况下,制度实体还需区别主体和客体,即从一个或几个句子中发现谁是主体,谁是客体,依此来明确制度关系,这点相比于普通的组织等实体识别提出了更高的要求,即在识别实体的基础上需进行主客体分类。基于以上要求和特征,制度实体的识别可以借鉴自然语言处理序列标注的方法进行,但需要在标注和输出环节进行特殊设计。
218.考虑需进行主客体分类,本技术实施例在bioes标注体系(一种已有的标注体系)基础上引入“zk”标注,其中z代表主体标志,k代表客体标志。基于以上标注体系,制度实体的标注序列如下所示:
[0219]“0bz-org iz-org b-are i-are b-typ i-typ b-fix i-fix
[0220]
根据某某公司采购流程管理办法(2017版)
[0221]
0 iz-org ez-org i-are e-are i-typ e-tye i-fix e-fix
[0222]
0 bk-org ik-org b-are i-are b-typ i-typ b-fix i-fix
[0223]
制定某某公司采购流程管理办法(2018版)
[0224]
0ik-org ek-org i-are e-are i-typ e-tye i-fix e-fix”[0225]
在上述示例中,“根据”后为制度主体标注,“制定”后为制度客体标注。本技术实施例只将org部分标注主体和客体标记,主要是因为通过org已经可以识别出整个制度实体,无需全部标注,且较少的标记可以减少分类层次和数量,提升模型训练和预测的效率。
[0226]
在本技术实施例中,基于bert+bi-lstm+crf模型建立了第一神经网络,在训练后得到预设实体识别模型。其中,bert算法作为特征提取模型输出字嵌入向量作为bi-lstm的输入,相比于其他的词嵌入算法形成的向量,bert算法主要具有根据复杂上下文语义进行词义消歧的优势;而且,bi-lstm双向语义模型,保证了最大限度的获取句子语义信息,预测文本与标签之间的关系;另外,crf作为解码层,将bi-lstm的概率输出进一步转换,识别标签和标签之间的转移特征。
[0227]
参见图8,其示出了本技术实施例提供的再一种知识图谱构建方法的流程示意图。如图8所示,针对输入数据,首先,利用bert算法提取其特征向量;其次,特征向量分别经过反向lstm(backward lstm)和正向lstm(forwardlstm)的计算,得到输出结果(即bi-lstm output);再次,输出结果经过 crf,得到实体识别(named entity recognition,ner)输出,也就是标注完成的结果。
[0228]
还需要说明的是,在输入环节,考虑到bert算法最多支持512个字,否则将对输入进行截断处理,如此将很容易造成实体和关系信息的丢失。为了解决该问题,本技术实施例针对制度发文内容进行如下处理:
[0229]
(1)制度发文内容根据发文格式规则去除头尾信息,例如,头信息一般为发文面向对象称呼信息,尾信息“请遵照执行”、“现给予印发”等字样信息。抽取头尾之间的文字信息作为输入;
[0230]
(2)将头尾之间的文字以标点符号为分割,根据规则删除无意义句子,例如背景、功能介绍等具有显著描述特征的句子;
[0231]
经过上述两种数据处理之后,尽可能保证制度发文在bert算法要求输入的最大限度之内,减少信息丢失。
[0232]
另外,在输出环节,基于crf的预测输出加入规则组合,直接输出带有主客体标记的制度实体名称。规则组合分为两个层次:
[0233]
(1)org、are等实体组合
[0234]
以org为例,模型将以字为单位进行类别输出,将以bk-org或bz-org 开头,之后为ik-org或iz-org一个或多个字,以ek-org或ez-org结束的字组合成org实体,如某公司。同理,还可以识别出采购流程、管理办法等are、typ实体。
[0235]
(2)制度实体组合
[0236]
制度实体是以上org、are等四个或前三个实体的顺序组合,将以org 标记为开头依次组合are、typ、fix实体,直到出现其它实体;其中,org 区分bk和bz,bz为主体,bk为客
体。在这里,若没有顺序出现的实体组合则代表该句中没有制度实体。
[0237]
s602:对抽取到的实体数量进行判断。
[0238]
在这里,对于步骤s602,如果抽取到的实体数量为1,那么执行步骤s606;如果抽取到的实体数量为2,那么执行步骤s604;如果抽取到的实体数量大于 3,那么执行步骤s603。
[0239]
需要说明的是,如果仅抽取到一个制度实体,那么实际上并不存在制度关系,可以直接进行制度属性抽取;如果抽取到两个及以上制度实体,则需要利用预设关系抽取模型对制度发文文件进行分析,确定不同实体之间的制度关系,同时还需要进行制度属性抽取。
[0240]
s603:对制度发文文件进行切割。
[0241]
需要说明的是:因制度发文文件可能包含多个制度实体,同时蕴涵多种制度关系,本技术实施例在进行关系抽取前进行发文切割,切割以实体位置为依据,顺序切割包含两个制度实体的完整句子作为关系抽取的输入,例如制度发文文件包含n个制度实体,则将发文内容切割为(n-1)个句子输入。
[0242]
s604:从制度发文文件中进行制度关系抽取。
[0243]
需要说明的是,利用预设关系抽取模型对制度发文文件进行制度关系抽取,确定不同实体之间的制度关系。在本技术实施例中,基于bert算法建立了预设关系抽取模型。为了提升分类效果,本技术实施例在输入上标记制度实体位置,从而在全连接层进行实体制度向量合并(将语义特征和位置特征进行合并) 以增加实体特征信息。
[0244]
参见图9,其示出了再一种知识图谱构建方法的流程示意图。如图9所示,为了使bert模型能够定位两个实体的位置,本技术实施例在每个句子的开头添加"[cls]",在制度实体(主体)前后添加特殊字符"$",在制度实体(客体) 前后添加特殊字符"#"。
[0245]
如图9所示,本技术实施例利用了bert算法提取了三部分特征进行关系分类:
[0246]
(1)最终隐含状态向量(如图9中的h0,相当于前述的语义特征),这部分提取了句子的语义特征。作为最终全连接层输入的第一部分特征,可以根据bert算法输出的第一个编码向量输入到激活层然后再进行一层全连接得到。
[0247]
(2)制度主体隐含状态向量(如图9中的hi和hj,相当于前述的主体特征),该部分特征不仅包括主体的语义特征,还包括主体的位置特征。也就是说,通过将主体的语义特征和其他特征(如位置特征)进行合并,增加实体特征信息。制度主体隐含状态向量是对bert输出的主体向量进行平均后输入激活和全连接层得到。
[0248]
(3)制度客体隐含状态向量(如图9中的hk和hm,相当于前述的客体特征),该部分特征不仅包括客体的语义特征,还包括客体的位置特征。
[0249]
将以上三个特征向量输入各自的全连接层进行特征维度压缩,拼接后输入一个全连接层进行分类维度压缩,最后通过softmax层进行关系分类概率输出,概率最大对应的关系类别即为该制度主体和客体的关系类别。
[0250]
s605:根据所抽取的制度关系进行关系推理,得到部分制度属性。
[0251]
需要说明的是,根据前述内容,在同时存在制度正文文件和制度发文文件的情况下,优先在制度发文文件中抽取部分属性信息,其次在制度正文文件中抽取未知属性信息。因此,针对制度发文文件,可以利用抽取制度关系时所获得的部分信息进行关系推理,得到部分制度属性;其他的制度属性则通过步骤 s606获得。
[0252]
s606:从制度正文文件中进行制度属性抽取。
[0253]
需要说明的是,通过前述对于制度发文文件的处理,能够确定部分制度属性。此时,可能仍然有一些属性条目是未知的。因此,需要针对那些未知的属性条目,从制度正文文件再次进行制度属性抽取。也就是说,最终的制度属性信息一部分来自于制度发文文件,一部分来自于制度正文文件。
[0254]
具体地,本技术实施例定义制度发文号、印发单位等7个制度属性和制度条款,针对每个属性的特征同时考虑知识图谱自动化构建的效率,设计不同的抽取方法。在具体的抽取方法上,本技术实施例结合专家领域先验知识,设计制度属性个性化特征模式,基于特征模式进行制度属性抽取,具体特征模式如下:
[0255]
(1)针对发文号、印发时间、印发单位、解释部门4个具有明显结构、位置或上下文特征的制度属性,本技术实施例采用正则匹配的方式进行规则查找。例如,发文号
‑“
集通〔2016〕131号”通常出现在发文文件开头位置位于标题之后,发文主体内容之前,具有明显的结构特征和位置特征。
[0256]
(2)针对在行废止状态属性,本技术实施例利用关系抽取中的替代关系直接推理出废止状态,否则为在行状态。
[0257]
(3)针对制度标签本技术实施例利用实体识别中抽取的“are”实体进行分词后得到的词组和发文识别时计算的tf-idf权重进行排序取前3作为制度标签属性。
[0258]
(4)针对制度领域属性,本技术实施例引入专家知识将领域统一分为财务、采购等20个领域,因制度的解释部门自带领域属性,本技术实施例通过解释部门属性进行多对一领域映射,极大提高了制度领域属性抽取的效率。
[0259]
(5)制度正文条款具有较为明显的分割符,根据章节和条款标记以及换行符即可抽取出制度条款内容。
[0260]
还需要说明的是,以上仅给出了同时具有正文和发文中进行知识提取的流程,如果缺失正文或者缺失发文则相应处理即可,可参见前述。
[0261]
这样,以上制度实体、制度关系、制度属性构成了制度知识图谱的主体内容,以制度实体为核心,以制度关系为连接构成知识图谱的基本框架,结合制度属性作为实体属性图,三者共同构成知识丰富、语义明确的制度知识图谱。
[0262]
综上所述,本技术实施例提供了一种制度领域的知识图谱自动化构建方法,至少包括以下内容:(1)面向制度领域,定义制度知识图谱本体结构,包括制度关系、制度实体和制度属性,以此构建制度领域知识图谱自动化构建的顶层框架;(2)本技术实施例为制度领域量身打造知识抽取模块。设计制度主体和客体标注和模型结果序列组合体系,基于bert-bi-lstm-crf进行制度实体识别,解决长串实体识别率低问题;利用制度实体标记,基于bert编码向量特征拼接以增加显性特征维度进行制度关系抽取;基于制度发文和正文内容的特征模式,设计制度属性抽取方法;(3)本技术实施例提供了统一文件系统模块,专注解决多源异构数据的统一问题,将数据处理与知识抽取解耦分离,使知识图谱自动化构建更具扩展性和健壮性。其中,设计制度正文和发文识别方法,减少知识图谱构建过程中的人工标注,使自动化构建更具可行性;结合制度领域业务模式,基于simhash指纹编码设计制度文件去重,减少数据冗余。
[0263]
简言之,本技术实施例提供了一种知识图谱构建方法,通过本实施例对前述实施例的详细阐述,从中可以看出,本技术实施例提供了制度领域知识图谱本体结构,为制度领
域知识图谱自动化构建提供顶层指导框架;而且,本技术实施例还提供统一文件系统独立模块,将数据处理与知识抽取分离,便于重点处理多源异构数据,提升数据质量,且能够使知识抽取不受数据变动影响,便于数据扩展,为制度领域知识图谱构建奠定自动化的基础;最后,本技术实施例面向制度领域,基于bert、bi-lstm、crf等算法,针对制度数据特殊结构设计制度实体识别、制度关系抽取、制度属性抽取等知识抽取模块,为制度领域知识图谱构建提供精准元素。
[0264]
在本技术的再一实施例中,参见图10,其示出了本技术实施例提供的一种知识图谱构建装置70的组成结构示意图。如图10所示,该知识图谱构建装置 70包括获取单元701、识别单元702、抽取单元703和构建单元704,其中,
[0265]
获取单元701,配置为获取待处理制度数据;
[0266]
识别单元702,配置为利用预设识别模型对所述待处理制度数据进行分析,确定制度正文数据和/或制度发文数据;
[0267]
抽取单元703,配置为对所述制度正文数据和/或制度发文数据进行知识抽取,确定目标构建信息;
[0268]
构建单元704,配置为对所述目标构建信息进行图谱构建处理,得到目标知识图谱。
[0269]
在一些实施例中,获取单元701,具体配置为对原始制度数据进行数据清洗处理,得到标准制度数据;其中,所述数据清洗处理至少包括下述的其中一项:统一规则处理、统一类型处理和统一格式处理;对所述标准制度数据进行去重处理,得到所述待处理制度数据。
[0270]
在一些实施例中,所述预设识别模型包括发文分类器和正文分类器;识别单元701,具体配置为对所述待处理制度数据进行分词处理,得到待处理词典;对所述待处理制度数据进行统计分析,确定所述待处理词典对应的词语权值集合;利用所述发文分类器对所述词语权值集合进行计算,得到第一分类结果;以及利用所述正文分类器对所述词语权值集合进行计算,得到第二分类结果;根据所述第一分类结果和所述第二分类结果,确定所述制度正文数据和/或制度发文数据。
[0271]
在一些实施例中,抽取单元703,具体配置为在仅存在制度正文数据的情况下,利用预设实体抽取模型对所述制度正文数据进行实体抽取,得到制度实体信息;利用预设属性抽取模型对所述制度正文数据进行属性抽取,得到制度属性信息;将所述制度实体信息和制度属性信息确定为所述目标构建信息。
[0272]
在一些实施例中,抽取单元703,具体配置为在仅存在制度发文数据的情况下,利用预设实体抽取模型对所述制度发文数据进行实体抽取,得到制度实体信息;利用预设属性抽取模型对所述制度发文数据进行属性抽取,得到制度属性信息;在所述制度实体信息指示存在一个制度实体的情况下,将所述制度实体信息和所述制度属性信息确定为所述目标构建信息;在所述制度实体信息指示存在至少两个制度实体的情况下,利用预设关系抽取模型对所述制度发文数据进行关系抽取,得到制度关系信息,并将所述制度实体信息、所述制度属性信息和所述制度关系信息确定为所述目标构建信息。
[0273]
在一些实施例中,抽取单元703,具体配置为在存在制度发文数据和制度正文数据的情况下,利用预设实体抽取模型对所述制度发文数据进行实体抽取,得到制度实体信息;
利用预设属性抽取模型对所述制度发文数据和所述制度正文数据进行属性抽取,得到制度属性信息;在所述制度实体信息指示存在一个制度实体的情况下,将所述制度实体信息和所述制度属性信息确定为所述目标构建信息;在所述制度实体信息指示存在至少两个制度实体的情况下,利用预设关系抽取模型对所述制度发文数据进行关系抽取,得到制度关系信息,并将所述制度实体信息、所述制度关系信息和所述制度属性信息确定为所述目标构建信息。
[0274]
在一些实施例中,抽取单元703,还配置为利用所述预设属性抽取模型对所述制度发文数据进行一次属性抽取,得到一次属性抽取结果;根据所述一次属性抽取结果,确定待抽取属性条目;根据所述待抽取属性条目,利用所述预设属性抽取模型对所述制度正文数据进行二次属性抽取,得到二次属性抽取结果;根据所述一次属性抽取结果和所述二次属性抽取结果,得到所述制度属性信息。
[0275]
在一些实施例中,在所述制度实体信息指示存在至少两个制度实体的情况下,所述至少两个制度实体包括至少一个制度主体和至少一个制度客体,且所述制度主体和所述制度客体之间存在唯一的制度关系;相应地,抽取单元703,具体配置为在所述制度实体信息指示存在至少两个制度实体的情况下,对所述制度发文数据进行切割,确定至少一个待处理语句;其中,所述至少一个待处理语句中的每一待处理语句均包含一个制度主体和一个制度客体;对所述至少一个待处理语句进行主客体标记,得到至少一个目标语句;对所述至少一个目标语句进行特征提取,确定所述至少一个目标语句各自的语义特征、制度主体特征和制度客体特征;根据所述至少一个目标语句各自的语义特征、制度主体特征和制度客体特征,确定所述至少一个目标语句各自的实体关系,并将所述至少一个目标语句各自的实体关系确定为所述制度关系信息;其中,所述制度主体特征至少包括主体语义特征和主体位置特征,所述制度客体特征至少包括客体语义特征和客体位置特征。
[0276]
可以理解地,在本实施例中,“单元”可以是部分电路、部分处理器、部分程序或软件等等,当然也可以是模块,还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0277]
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read onlymemory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0278]
因此,本实施例提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,所述计算机程序被多个处理器执行时实现前述实施例中任一项所述的方法的步骤。
[0279]
基于上述的一种知识图谱构建装置70的组成以及计算机存储介质,参见图 11,其示出了本技术实施例提供的一种电子设备80的硬件结构示意图。如图 11所示,所述电子设
signal processing,dsp)、数字信号处理设备(dsp device,dspd)、可编程逻辑设备(programmable logic device,pld)、现场可编程门阵列(field
‑ꢀ
programmable gate array,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
[0289]
对于软件实现,可通过执行本技术所述功能的模块(例如过程、函数等) 来实现本技术所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
[0290]
可选地,作为另一个实施例,处理器803还配置为在运行所述计算机程序时,执行前述实施例中任一项所述的方法的步骤。
[0291]
基于上述知识图谱构建装置70的组成示意图,参见图12,其示出了本技术实施例提供的另一种电子设备80的组成结构示意图。如图12所示,该电子设备80至少包括前述实施例中任一项所述的知识图谱构建装置70。
[0292]
对于电子设备80而言,通过预设识别模型能够对待处理制度数据进行正文 /发文识别,无需人工标注,而且通过知识抽取能够准确地获得目标构建信息,提高了构建知识图谱的速度和准确性;除此之外,通过知识图谱还能够梳理不同制度之间的关系,精准且全面地展示制度相关信息,降低制度审计和制度理解的难度,最终提高了生产效率。
[0293]
以上所述,仅为本技术的较佳实施例而已,并非用于限定本技术的保护范围。
[0294]
需要说明的是,在本技术中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0295]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0296]
本技术所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
[0297]
本技术所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
[0298]
本技术所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
[0299]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1