一种信息抽取方法、装置及电子设备与流程

文档序号:29943152发布日期:2022-05-07 15:12阅读:63来源:国知局
一种信息抽取方法、装置及电子设备与流程

1.本发明涉及自然语言处理技术领域,特别是涉及一种信息抽取方法、装置及电子设备。


背景技术:

2.信息抽取技术通过对结构化、半结构化及非结构化文本数据进行分析处理,提取得到结构化文本信息,是自然语言处理领域一项基础且重要的任务环节。简历对于认识一个人有着非常重要的意义,简历解析是智能招聘领域的一项重要任务,将简历文档中的个人基本信息及工作、项目、实习、活动等经历信息进行自动智能化解析提取,对于公司招聘、人才评估及人才管理等都具有重要作用和实际意义。
3.在实际应用中,由于简历版式、书写习惯等诸多因素的影响,使得如何准确的对简历进行智能解析,尤其对简历经历进行解析、提取信息具有较大挑战。针对简历经历的信息抽取,目前主要使用的方法是:基于规则的信息抽取。具体的,预先设定一定数量的规则以及关键词表,进而利用规则及关键词表进行信息抽取,提取得到简历经历信息。例如,设定的规则可以为按照时间、地点、组织部门以及职务的顺序抽取信息,或者按照地点、职务以及时间的顺序抽取信息等等,关键词表中可以包含教育、工作、实习等等关键词。
4.然而,由于存在简历板式多样化,个人书写习惯多元化等因素的影响,使得利用规则及关键词表进行信息抽取得到简历经历信息的方法,针对部分较为规范理想的简历模板,可能能够准确提取到简历经历信息,而针对不是规范理想简历模板的情况,提取到的简历经历信息准确性较低,整体泛化能力较差,进而导致简历经历信息提取的整体准确度较低。


技术实现要素:

5.本发明实施例的目的在于提供一种信息抽取方法、装置及电子设备,以提高信息抽取的准确性。具体技术方案如下:
6.第一方面,本发明实施例提供了一种信息抽取方法,所述方法包括:
7.获取待进行信息抽取的目标文本,并对所述目标文本进行拼接处理,得到待识别文本;
8.采用第一识别方式,分别对所述待识别文本中的预设关键字段以及标题行进行识别,得到多个第一关键字段以及多个目标标题行;
9.基于各所述第一关键字段以及各所述目标标题行,对所述待识别文本进行分块,得到多个文本子块;
10.针对每一文本子块,采用第二识别方式提取该文本子块中的预设关键字段,得到第二关键字段;
11.对各文本子块分别对应的所述第一关键字段和所述第二关键字段进行融合,得到不同文本子块对应的初步抽取结果;
12.对所述初步抽取结果进行去重,得到所述目标文本的信息抽取结果。
13.可选地,所述对所述目标文本进行拼接处理,得到待识别文本,包括:
14.将所述目标文本输入文本拼接模型中对所述目标文本中存在的换行文字进行拼接处理,得到待识别文本。
15.可选地,所述采用第一识别方式,分别对所述待识别文本中的预设关键字段以及标题行进行识别,得到多个第一关键字段以及多个目标标题行,包括:
16.将所述待识别文本输入实体识别模型中进行逐行实体识别,得到多个第一关键字段,所述实体识别模型用于:逐行对所述待识别文本中的预设关键字段进行识别;
17.将包含所述第一关键字段的文本行输入文本分类模型中进行标题行识别,得到多个目标标题行,所述文本分类模型用于:对所述包含所述第一关键字段的文本行中的标题行进行识别。
18.可选地,所述基于各所述第一关键字段以及各所述目标标题行,对所述待识别文本进行分块,得到多个文本子块,包括:
19.基于各所述目标标题行中包含的第一关键字段,确定各所述目标标题行的书写模式,所述目标标题行的书写模式表示所述目标标题行中各第一关键字段的书写顺序;
20.以各所述目标标题行的书写模式为分块依据,将书写模式相同的两个相邻目标标题行之间的内容,以及所述两个相邻目标标题行中的前一个划分为一个子块,得到多个文本子块。
21.可选地,所述针对每一文本子块,采用第二识别方式提取该文本子块中的预设关键字段,得到第二关键字段,包括:
22.针对每一文本子块,将该文本子块输入事件抽取模型中进行文本子块的关键字段抽取,得到第二关键字段,所述事件抽取模型用于:对所述文本子块中的预设关键字段进行抽取。
23.可选地,所述对各文本子块分别对应的所述第一关键字段和所述第二关键字段进行融合,得到不同文本子块对应的初步抽取结果,包括:
24.针对每一文本子块,将该文本子块中各所述第二关键字段,和从该文本子块对应的待识别文本内容中所提取的第一关键字段,按照预设规则进行融合,得到该文本子块对应的初步抽取结果。
25.可选地,所述对所述初步抽取结果进行去重,得到所述目标文本的信息抽取结果,包括:
26.对包含相同关键字段的不同文本子块对应的初步抽取结果进行信息去重,得到所述目标文本的信息抽取结果。
27.第二方面,本发明实施例提供了一种信息抽取装置,所述装置包括:
28.文本拼接模块,用于获取待进行信息抽取的目标文本,并对所述目标文本进行拼接处理,得到待识别文本;
29.第一提取模块,用于采用第一识别方式,分别对所述待识别文本中的预设关键字段以及标题行进行识别,得到多个第一关键字段以及多个目标标题行;
30.文本分块模块,用于基于各所述第一关键字段以及各所述目标标题行,对所述待识别文本进行分块,得到多个文本子块;
31.第二提取模块,用于针对每一文本子块,采用第二识别方式提取该文本子块中的预设关键字段,得到第二关键字段;
32.字段融合模块,用于对各文本子块分别对应的所述第一关键字段和所述第二关键字段进行融合,得到不同文本子块对应的初步抽取结果;
33.文本去重模块,用于对所述初步抽取结果进行去重,得到所述目标文本的信息抽取结果。
34.第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
35.存储器,用于存放计算机程序;
36.处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的一种信息抽取方法的步骤。
37.第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的一种信息抽取方法的步骤。
38.本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的一种信息抽取方法的步骤。
39.本发明实施例有益效果:
40.本发明实施例提供的一种信息抽取方法、装置及电子设备,可以对目标文本中不同行的文本信息进行拼接处理,以完善文本信息,滤除由于文本篇幅过长造成的缺失换行问题,可以提高文本信息抽取的准确度,以及结合从待识别文本中识别的各第一关键字段和各目标标题行对待识别文本进行分块,使得文本分块更准确,同时去除了文本分块过程中相关字段的噪声影响,降低了文本解析结果的误警率,并对各文本子块分别对应的第一关键字段和第二关键字段进行融合,降低了关键字段缺失的概率,使得得到的不同文本子块对应的初步抽取结果更为准确,进而再对初步抽取结果进行去重,过滤重复的抽取结果,得到针对目标文本更为准确的信息抽取结果。
41.当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
42.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
43.图1为本发明实施例提供的一种信息抽取方法的流程示意图;
44.图2为本发明实施例提供的另一种信息抽取方法的流程示意图;
45.图3为本发明实施例提供的再一种信息抽取方法的流程示意图;
46.图4为本发明实施例提供的一种简历经历信息抽取实施过程的框架示意图;
47.图5为本发明实施例提供的一种信息抽取装置的结构示意图;
48.图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
49.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本技术所获得的所有其他实施例,都属于本发明保护的范围。
50.为了解决现有利用规则及关键词表进行信息抽取得到简历经历信息的方法,导致简历经历信息提取的整体准确度较低的问题,本发明实施例提供了一种信息抽取方法、装置及电子设备。
51.本发明实施例提供的一种信息抽取方法,包括:
52.获取待进行信息抽取的目标文本,并对目标文本进行拼接处理,得到待识别文本;
53.采用第一识别方式,分别对待识别文本中的预设关键字段以及标题行进行识别,得到多个第一关键字段以及多个目标标题行;
54.基于各第一关键字段以及各目标标题行,对待识别文本进行分块,得到多个文本子块;
55.针对每一文本子块,采用第二识别方式提取该文本子块中的预设关键字段,得到第二关键字段;
56.对各文本子块分别对应的第一关键字段和第二关键字段进行融合,得到不同文本子块对应的初步抽取结果;
57.对初步抽取结果进行去重,得到目标文本的信息抽取结果。
58.本发明实施例提供的一种信息抽取方法,可以对目标文本中不同行的文本信息进行拼接处理,以完善文本信息,滤除由于文本篇幅过长造成的缺失换行问题,可以提高文本信息抽取的准确度,以及结合从待识别文本中识别的各第一关键字段和各目标标题行对待识别文本进行分块,使得文本分块更准确,同时去除了文本分块过程中相关字段的噪声影响,降低了文本解析结果的误警率,并对各文本子块分别对应的第一关键字段和第二关键字段进行融合,降低了关键字段缺失的概率,使得得到的不同文本子块对应的初步抽取结果更为准确,进而再对初步抽取结果进行去重,过滤重复的抽取结果,得到针对目标文本更为准确的信息抽取结果。
59.下面对本发明实施例提供的一种信息抽取方法进行详细介绍:
60.本发明实施例中相关术语解释:
61.信息抽取:指从结构化、半结构化或非结构化文本中提取结构化信息的技术。
62.命名实体识别(named entity recognition,ner),指识别文本中具有特定意义的实体,主要包括用户名、地域名、公司名、专有名词等。
63.文本分类:指在给定的分类体系中,将文本指定分到某个或某几个类别中。
64.光学字符识别(optical character recognition,ocr),指对一定形式的文件进行分析识别处理,获取文字及版面信息的过程。
65.实体:指文本中具有特定意义的实体词汇或者短语描述。
66.事件抽取:指使用预定义的事件模式从文本中发现和提取事件类型及事件元素的技术。
67.本发明实施例提供的一种信息抽取方法,可以应用于电子设备中,该电子设备可
以是客户端设备,或服务器设备等等。
68.如图1所示,本发明实施例提供了一种信息抽取方法,该方法可以包括以下步骤:
69.s101,获取待进行信息抽取的目标文本,并对目标文本进行拼接处理,得到待识别文本。
70.本发明实施例中,从电子设备端获取待进行信息抽取的对象,该信息抽取的对象可以是包含多个分段的文本,比如,简历文本,项目计划文本等等,其中,简历文本中可以包含教育、工作以及实习等不同分段的文本信息。具体的,可以利用ocr识别方式,或是任意能够进行文字识别的方式,对包含多个分段的待进行信息抽取文本进行分析识别处理,获取待进行信息抽取文本中的文字,即得到待进行信息抽取的目标文本。
71.待进行信息抽取文本中可能存在文本行较长导致的换行问题,或是分行以及自动换行等问题,进而所获取的待进行信息抽取的目标文本中可能也存在换行等问题。本发明实施例中,可以对所获取的待进行信息抽取的目标文本中不同行,具体的可以是断行、换行等文本信息进行拼接处理,得到待识别文本。
72.作为本发明实施例一种可选的实施方式,对目标文本进行拼接处理,得到待识别文本的实施方式,可以包括:
73.将目标文本输入文本拼接模型中对目标文本中存在的换行文字进行拼接处理,得到待识别文本。
74.示例性的,可以在一种开源的预训练语言模型—基于transformer的双向编码器表示(bidirectional encoder representation from transformers,bert)预训练语言模型的基础上,利用样本信息抽取文本进行训练得到文本拼接模型,该文本拼接模型可以用于:对目标文本中存在的换行文字进行拼接处理。具体的,可以对目标文本中存在的换行文字或断行文字等进行判断并拼接处理,比如,根据指定字符来判断目标文本中是否存在换行文字或断行文字,该指定字符例如可以是表示句子结尾的句号、感叹号等标点符号,在判断出目标文本中存在换行文字或断行文字时,将换行文字或断行文字按照目标文本中文字的先后顺序进行拼接处理,即得到待识别文本。一个例子中,拼接模型实现的可以是:按行判断目标文本中每一行最后一个文字之后是否有指定字符,如果有,表示该行不存在换行文字或断行文字,如果没有,即表示该行存在换行文字或断行文字,此时将该行文字与该行的下一行文字进行拼接,得到待识别文本。当然,任何能够实现对目标文本中存在的换行文字或断行文字等进行判断并拼接处理的文本拼接模型,均属于本发明保护的范围。
75.本发明实施例中,将目标文本输入文本拼接模型中对目标文本中存在的换行文字进行拼接处理,得到的待识别文本,实现了目标文本的断句还原,滤除了由于文本篇幅过长造成的缺失换行问题,完善了目标文本信息。
76.s102,采用第一识别方式,分别对待识别文本中的预设关键字段以及标题行进行识别,得到多个第一关键字段以及多个目标标题行。
77.在得到待识别文本之后,可以采用第一识别方式,对待识别文本中的预设关键字段以及标题行进行识别,进而可以得到多个第一关键字段以及多个目标标题行。该第一识别方式可以是对待识别文本进行逐行识别,预设关键字段可以根据实际需求进行设置,比如,待识别文本为简历经历文本,那么可以设置预设关键字段为时间、公司名称、项目名称以及职位等。
78.在对待识别文本进行逐行识别的过程中,可以先对预设关键字段进行识别,得到多个第一关键字段,进而结合识别得到的多个第一关键字段,以及标题行的判断逻辑,判断当前所识别的文本行是否为标题行,如果当前所识别的文本行为标题行,则将当前所识别的文本行识别为目标标题行,所识别到的目标标题行可以作为对待识别文本进行分块的分块依据。
79.示例性的,待识别文本为简历经历文本,标题行的判断逻辑可以为,将包含按预定书写顺序的多个第一关键字段(如包含第一关键字段时间、公司名、专业等)的文本行识别为标题行。比如,针对教育经历文本,所识别的文本行包含第一关键字段:时间、院校、专业,则将当前所识别的文本行识别为目标标题行,针对工作经历文本,所识别的文本行包含第一关键字段:时间、公司名、专业,则将当前所识别的文本行识别为目标标题行等等。
80.s103,基于各第一关键字段以及各目标标题行,对待识别文本进行分块,得到多个文本子块。
81.识别出待识别文本中包含的多个第一关键字段以及目标标题行之后,可以将各目标标题行中包含的各第一关键字段的书写顺序作为分块依据,对待识别文本进行分块,得到多个文本子块。
82.示例性的,以待识别文本为简历经历文本为例进行说明,将各第一关键字段的书写顺序为时间、公司名、职位对应的目标标题行,确定为待识别文本分块的界限,实现对待识别文本的分块,或者,将各第一关键字段的书写顺序为公司名、职位、时间对应的目标标题行,确定为待识别文本分块的界限,实现对待识别文本的分块等等。
83.结合从待识别文本中识别的各第一关键字段和各目标标题行对待识别文本进行分块,使得文本分块更准确,去除了文本分块过程中描述文本中相关字段的噪声影响,降低了文本解析结果的误警率。
84.s104,针对每一文本子块,采用第二识别方式提取该文本子块中的预设关键字段,得到第二关键字段。
85.对待识别文本进行分块之后,针对每一文本子块,可以采用第二识别方式提取该文本子块中的预设关键字段,得到第二关键字段。该第二识别方式可以是对文本子块进行的整段识别,预设关键字段可以根据实际需求进行设置,比如,待识别文本为简历经历文本,那么可以设置预设关键字段为时间、公司名称、项目名称以及职位等。
86.作为本发明实施例一种可选的实施方式,针对每一文本子块,采用第二识别方式提取该文本子块中的预设关键字段,得到第二关键字段的实施过程,可以包括:
87.针对每一文本子块,将该文本子块输入事件抽取模型中进行文本子块的关键字段抽取,得到第二关键字段,其中,事件抽取模型用于:对文本子块中的预设关键字段进行抽取。该实施例中,第二识别方式即采用事件抽取模型对文本子块中的关键字段进行抽取。
88.以待识别文本为简历经历文本为例进行说明,对待识别文本进行分块得到多个文本子块之后,每一文本子块表示了一部分经历,这一部分经历可以是由一项或多项事件组成的,故而,可以预先训练事件抽取模型来对文本子块中的关键字段进行抽取。
89.示例性的,可以在bert预训练语言模型的基础上,利用样本信息抽取文本,以及真值关键字段进行训练得到事件抽取模型,在事件抽取模型训练的过程中,可以结合教育经历、工作经历以及项目经历等事件类型信息进行模型训练,所训练的事件抽取模型可以用
于:对文本子块整段中的预设关键字段进行抽取。其中,真值关键字段可以设置与预设关键字段相同或不同。当然,任何能够实现对文本子块整段中的预设关键字段进行抽取的事件抽取模型,均属于本发明保护的范围。
90.进而,针对每一文本子块,将该文本子块输入事件抽取模型中进行文本子块整段的关键字段抽取,得到该文本子块中的第二关键字段。
91.s105,对各文本子块分别对应的第一关键字段和第二关键字段进行融合,得到不同文本子块对应的初步抽取结果。
92.在对待识别文本中的预设关键字段进行逐行识别,得到多个第一关键字段,以及对每一文本子块中的预设关键字段进行整段提取,得到多个第二关键字段之后,可以对各文本子块分别对应的第一关键字段和第二关键字段进行融合,得到不同文本子块对应的初步抽取结果,以降低关键字段缺失的概率。
93.作为本发明实施例一种可选的实施方式,对各文本子块分别对应的第一关键字段和第二关键字段进行融合的实施方式,可以包括:
94.针对每一文本子块,将该文本子块中各第二关键字段,和从该文本子块对应的待识别文本内容中所提取的第一关键字段,按照预设规则进行融合,得到该文本子块对应的初步抽取结果。
95.第二关键字段是针对文本子块整段提取的,第一关键字段是针对待识别文本逐行提取的,对于所提取的多个第一关键字段和多个第二关键字段,可以针对每一文本子块,将该文本子块中各第二关键字段,和从该文本子块对应的待识别文本内容中所提取的第一关键字段,按照预设规则进行融合,得到该文本子块对应的初步抽取结果,进一步得到不同文本子块对应的初步抽取结果。示例性的,一个文本子块对应的初步抽取结果可以是一条包含关键字段的具体信息。
96.其中,预设规则可以根据本领域技术人员的实际需求进行设置。例如,针对每一文本子块,可以将上述通过第一识别方式得到的各第一关键字段和通过第二识别方式得到的各第二关键字段中不同的关键字段,补充至没有该不同关键字段的第一关键字段或第二关键字段中,进而将包含该不同关键字段的第一关键字段或第二关键字段,或者补充后的第一关键字段或第二关键字段确定为目标关键字段。或者,将各第一关键字段和各第二关键字段中不完整的关键字段,根据对应的完整的关键字段进行完善,进而将包含完整的关键字段的第一关键字段或第二关键字段,或者完善后的第一关键字段或第二关键字段确定为目标关键字段,以实现对关键字段缺失的补充。或者,将各第一关键字段和各第二关键字段中不同的关键字段,从第一关键字段或第二关键字段中删除,进而将不包含该不同关键字段的第一关键字段或第二关键字段,或者删除该不同关键字段的第一关键字段或第二关键字段确定为目标关键字段等等。得到的目标关键字段即为该文本子块对应的初步抽取结果。
97.示例性的,针对每一文本子块,该文本子块的第一关键字段中包含xxx有限公司,而第二关键字段中不包含xxx有限公司,可以将xxx有限公司补充至第二关键字段,将第一关键字段或补充后的第二关键字段确定为目标关键字段。或者,该文本子块的第一关键字段中包含xxx,而第二关键字段中包含xxx有限公司,根据xxx有限公司对xxx进行完善得到xxx有限公司,将第二关键字段或者完善后的第一关键字段确定为目标关键字段。或者,该
文本子块的第一关键字段中包含xxx有限公司,而第二关键字段中不包含xxx有限公司,将第一关键字段中包含的xxx有限公司删除,并将第二关键字段或者删除后的第一关键字段确定为目标关键字段。当然,本发明实施例只是以此为例进行说明,其并不构成对本发明实施例的限定。
98.对各文本子块分别对应的第一关键字段和第二关键字段进行融合,降低了目标文本识别过程中关键字段缺失的概率,使得得到的不同文本子块对应的初步抽取结果更为准确。
99.s106,对初步抽取结果进行去重,得到目标文本的信息抽取结果。
100.实际应用中,在待识别文本中,可能出现不同文本子块中包含相同关键字段的现象,对应相同的一段简历经历,如果不进行去重处理,则可能得到重复的信息抽取结果,故而,需要将重复的简历经历信息进行去重处理。
101.作为本发明实施例一种可选的实施方式,对初步抽取结果进行去重,得到目标文本的信息抽取结果的实施方式,可以包括:
102.对包含相同关键字段的不同文本子块对应的初步抽取结果进行信息去重,得到目标文本的信息抽取结果。
103.在得到待识别文本中各文本子块对应的初步抽取结果后,可以针对每一文本子块,检测不同文本子块中包含的第一关键字段或第二关键字段是否相同,如果相同,则表示这两个不同的文本子块对应同一段简历经历,进而对包含相同第一关键字段或第二关键字段的不同文本子块对应的初步抽取结果进行信息去重处理,保留其中一个文本子块对应的初步抽取结果,得到目标文本的信息抽取结果。
104.示例性的,在得到待识别文本中各文本子块对应的初步抽取结果后,可以针对各文本子块,按照第一关键字段或第二关键字段在各文本子块中的顺序,比对不同文本子块中包含的第一关键字段或第二关键字段是否相同,如果相同,则表示这两个不同的文本子块对应同一段简历经历,对包含相同第一关键字段或第二关键字段的不同文本子块对应的初步抽取结果进行信息去重处理,保留其中一个文本子块对应的初步抽取结果,得到目标文本的信息抽取结果。
105.本发明实施例提供的一种信息抽取方法,可以对目标文本中不同行的文本信息进行拼接处理,以完善文本信息,滤除由于文本篇幅过长造成的缺失换行问题,可以提高文本信息抽取的准确度,以及结合从待识别文本中识别的各第一关键字段和各目标标题行对待识别文本进行分块,使得文本分块更准确,同时去除了文本分块过程中相关字段的噪声影响,降低了文本解析结果的误警率,并对对各文本子块分别对应的第一关键字段和第二关键字段进行融合,降低了关键字段缺失的概率,使得得到的不同文本子块对应的初步抽取结果更为准确,进而再对初步抽取结果进行去重,过滤重复的抽取结果,得到针对目标文本更为准确的信息抽取结果。
106.作为本发明实施例一种可选的实施方式,在上述图1所示实施例的基础上,如图2所示,图2为本发明实施例提供的另一种信息抽取方法的流程示意图,该方法包括以下步骤:
107.s201,获取待进行信息抽取的目标文本,并对目标文本进行拼接处理,得到待识别文本。
108.其中,步骤s201与上述实施例中步骤s101的实现过程相同,本发明实施例在此不再赘述。
109.s202,将待识别文本输入实体识别模型中进行逐行实体识别,得到多个第一关键字段。其中,实体识别模型用于:逐行对待识别文本中的预设关键字段进行识别。
110.在得到待识别文本之后,可以采用逐行识别的方式,对待识别文本中的预设关键字段进行识别。具体的,可以将待识别文本输入实体识别模型中进行逐行实体识别,得到多个第一关键字段。
111.示例性的,可以在bert预训练语言模型的基础上,利用样本信息抽取文本,以及真值关键字段进行训练得到实体识别模型,所训练的实体识别模型可以用于:逐行对待识别文本中的预设关键字段进行识别。其中,真值关键字段可以设置与预设关键字段相同或不同。预设关键字段可以根据实际需求进行设置,比如,待识别文本为简历经历文本,那么可以设置预设关键字段为时间、公司名称、项目名称以及职位等。当然,任何能够逐行对待识别文本中的预设关键字段进行识别的实体识别模型,均属于本发明保护的范围。
112.s203,将包含第一关键字段的文本行输入文本分类模型中进行标题行识别,得到多个目标标题行。其中,文本分类模型用于:对包含第一关键字段的文本行中的标题行进行识别。
113.在对待识别文本中的预设关键字段进行识别,得到多个第一关键字段之后,可以采用逐行识别的方式,对包含第一关键字段的文本行中的标题行进行识别。具体的,可以将包含第一关键字段的文本行输入文本分类模型中进行标题行识别,得到多个目标标题行。
114.示例性的,可以在bert预训练语言模型的基础上,利用样本信息抽取文本,样本的第一关键字段以及真值标题行进行训练得到文本分类模型,所训练的文本分类模型可以用于:逐行对包含第一关键字段的文本行中的标题行进行识别。当然,任何能够逐行对包含第一关键字段的文本行中的标题行进行识别的文本分类模型,均属于本发明保护的范围。
115.其中,真值标题行可以是基于样本文本行的组成形式设置的,例如,真值标题行的判断规则可以为:由时间、公司名、部门、职称等关键字段组成的文本行,或是由时间、院校、专业等关键字段组成的文本行等等,以避免将描述文本行识别为标题行。即真值标题行的判断规则可以为:由按预定书写顺序的多个第一关键字段组成的文本行。
116.具体的,在训练文本分类模型的过程中,可以结合所识别到的样本的第一关键字段,利用真值标题行的判断规则,对当前样本文本行是否为标题行进行分类判断。
117.s204,基于各第一关键字段以及各目标标题行,对待识别文本进行分块,得到多个文本子块。
118.s205,针对每一文本子块,采用第二识别方式提取该文本子块中的预设关键字段,得到第二关键字段。
119.s206,对各文本子块分别对应的第一关键字段和第二关键字段进行融合,得到不同文本子块对应的初步抽取结果。
120.s207,对初步抽取结果进行去重,得到目标文本的信息抽取结果。
121.其中,步骤s204-s207,与上述实施例中步骤s103-s106的实现过程相同,本发明实施例在此不再赘述。
122.本发明实施例提供的一种信息抽取方法,可以对目标文本中不同行的文本信息进
行拼接处理,以完善文本信息,滤除由于文本篇幅过长造成的缺失换行问题,可以提高文本信息抽取的准确度,以及结合从待识别文本中识别的各第一关键字段和各目标标题行对待识别文本进行分块,使得文本分块更准确,同时去除了文本分块过程中相关字段的噪声影响,降低了文本解析结果的误警率,并对各文本子块分别对应的第一关键字段和第二关键字段进行融合,降低了关键字段缺失的概率,使得得到的不同文本子块对应的初步抽取结果更为准确,进而再对初步抽取结果进行去重,过滤重复的抽取结果,得到针对目标文本更为准确的信息抽取结果。
123.作为本发明实施例一种可选的实施方式,在上述图1所示实施例的基础上,如图3所示,图3为本发明实施例提供的再一种信息抽取方法的流程示意图,该方法包括以下步骤:
124.s301,获取待进行信息抽取的目标文本,并对目标文本进行拼接处理,得到待识别文本。
125.s302,采用第一识别方式,分别对待识别文本中的预设关键字段以及标题行进行识别,得到多个第一关键字段以及多个目标标题行。
126.其中,步骤s301-s302,与上述实施例中步骤s101-s102的实现过程相同,本发明实施例在此不再赘述。
127.s303,基于各目标标题行中包含的第一关键字段,确定各目标标题行的书写模式。其中,目标标题行的书写模式表示目标标题行中各第一关键字段的书写顺序。
128.在得到待识别文本中的多个第一关键字段以及多个目标标题行之后,针对每一目标标题行,根据该目标标题行中所包含的第一关键字段,确定该目标标题行的书写模式,具体的,目标标题行的书写模式表示的是该目标标题行中各第一关键字段的书写顺序。示例性的,目标标题行的书写模式可以是:时间、公司名、职称,或公司名、职称、专业、时间等等。
129.s304,以各目标标题行的书写模式为分块依据,将书写模式相同的两个相邻目标标题行之间的内容,以及两个相邻目标标题行中的前一个划分为一个子块,得到多个文本子块。
130.在确定各目标标题行的书写模式之后,以各目标标题行的书写模式为分块依据,将书写模式相同的两个相邻目标标题行之间的内容,以及两个相邻目标标题行中的前一个划分为一个子块,得到多个文本子块。即,以书写模式相同的两个相邻目标标题行确定一个文本子块。
131.示例性的,一个目标标题行的书写模式为:时间、公司名、职位,其相邻或下一目标标题行的书写模式也为:时间、公司名、职位,则将前一个目标标题行,以及这两个书写模式相同的目标标题行之间的内容划分为一个文本子块。
132.s305,针对每一文本子块,采用第二识别方式提取该文本子块中的预设关键字段,得到第二关键字段。
133.s306,对各文本子块分别对应的第一关键字段和第二关键字段进行融合,得到不同文本子块对应的初步抽取结果。
134.s307,对初步抽取结果进行去重,得到目标文本的信息抽取结果。
135.其中,步骤s305-s307,与上述实施例中步骤s104-s106的实现过程相同,本发明实施例在此不再赘述。
136.本发明实施例提供的一种信息抽取方法,可以对目标文本中不同行的文本信息进行拼接处理,以完善文本信息,滤除由于文本篇幅过长造成的缺失换行问题,可以提高文本信息抽取的准确度,以及结合从待识别文本中识别的各第一关键字段和各目标标题行对待识别文本进行分块,使得文本分块更准确,同时去除了文本分块过程中相关字段的噪声影响,降低了文本解析结果的误警率,并对各文本子块分别对应的第一关键字段和第二关键字段进行融合,降低了关键字段缺失的概率,使得得到的不同文本子块对应的初步抽取结果更为准确,进而再对初步抽取结果进行去重,过滤重复的抽取结果,得到针对目标文本更为准确的信息抽取结果。
137.示例性的,以待识别文本为简历经历文本为例进行说明,如图4所示,图4为本发明实施例提供的一种简历经历信息抽取实施过程的框架示意图。
138.图4中,简历经历信息抽取的实施过程可以包含两部分内容,一部分内容为简历经历文本分块,一部分内容为经历文本解析抽取。
139.其中,简历经历文本分块的实现包括:获取简历经历文本,将简历经历文本输入文本拼接模块中,利用文本拼接模块中的文本拼接模型对简历经历文本进行拼接处理,得到待识别文本。进一步,将待识别文本输入实体识别模块中,利用实体识别模块中的实体识别模型对预设关键字段进行逐行识别,得到多个第一关键字段,将包含第一关键字段的文本行输入标题描述分类识别模块中,利用标题描述分类识别模块中的文本分类模型对标题行进行识别,得到多个目标标题行,进而,基于各第一关键字段以及各目标标题行,对待识别文本进行分块,得到多个文本子块,即得到简历经历划分子块结果。
140.经历文本解析抽取的实现包括:针对每一划分的文本子块,将该文本子块输入事件抽取模块中,利用事件抽取模块中的事件抽取模型对文本子块中的关键字段进行抽取,得到第二关键字段,进一步,将各文本子块分别对应的第一关键字段和第二关键字段输入规则提取融合模块中进行融合,得到不同文本子块对应的初步抽取结果,再对包含相同关键字段的不同文本子块对应的初步抽取结果进行信息去重,得到简历经历解析抽取结果。
141.相应于上述方法实施例,本发明实施例还提供了相应的装置实施例。
142.如图5所示,本发明实施例提供了一种信息抽取装置,该装置可以包括:
143.文本拼接模块501,用于获取待进行信息抽取的目标文本,并对目标文本进行拼接处理,得到待识别文本;
144.第一提取模块502,用于采用第一识别方式,分别对待识别文本中的预设关键字段以及标题行进行识别,得到多个第一关键字段以及多个目标标题行;
145.文本分块模块503,用于基于各第一关键字段以及各目标标题行,对待识别文本进行分块,得到多个文本子块;
146.第二提取模块504,用于针对每一文本子块,采用第二识别方式提取该文本子块中的预设关键字段,得到第二关键字段;
147.字段融合模块505,用于对各文本子块分别对应的所述第一关键字段和所述第二关键字段进行融合,得到不同文本子块对应的初步抽取结果;
148.文本去重模块506,用于对所述初步抽取结果进行去重,得到所述目标文本的信息抽取结果。
149.本发明实施例提供的一种信息抽取装置,可以对目标文本中不同行的文本信息进
行拼接处理,以完善文本信息,滤除由于文本篇幅过长造成的缺失换行问题,可以提高文本信息抽取的准确度,以及结合从待识别文本中识别的各第一关键字段和各目标标题行对待识别文本进行分块,使得文本分块更准确,同时去除了文本分块过程中相关字段的噪声影响,降低了文本解析结果的误警率,并对各文本子块分别对应的第一关键字段和第二关键字段进行融合,降低了关键字段缺失的概率,使得得到的不同文本子块对应的初步抽取结果更为准确,进而再对初步抽取结果进行去重,过滤重复的抽取结果,得到针对目标文本更为准确的信息抽取结果。
150.可选地,上述文本拼接模块501,具体用于:
151.将所述目标文本输入文本拼接模型中对所述目标文本中存在的换行文字进行拼接处理,得到待识别文本。
152.可选地,上述第一提取模块502,包括:
153.字段提取子模块,用于将待识别文本输入实体识别模型中进行逐行实体识别,得到多个第一关键字段,实体识别模型用于:逐行对待识别文本中的预设关键字段进行识别;
154.标题行提取子模块,用于将包含第一关键字段的文本行输入文本分类模型中进行标题行识别,得到多个目标标题行,文本分类模型用于:对包含第一关键字段的文本行中的标题行进行识别。
155.可选地,上述文本分块模块503,包括:
156.确定子模块,用于基于各目标标题行中包含的第一关键字段,确定各目标标题行的书写模式,目标标题行的书写模式表示目标标题行中各第一关键字段的书写顺序;
157.文本分块子模块,用于以各目标标题行的书写模式为分块依据,将书写模式相同的两个相邻目标标题行之间的内容,以及两个相邻目标标题行中的前一个划分为一个子块,得到多个文本子块。
158.可选地,上述第二提取模块504,具体用于:
159.针对每一文本子块,将该文本子块输入事件抽取模型中进行文本子块的关键字段抽取,得到第二关键字段,事件抽取模型用于:对文本子块中的预设关键字段进行抽取。
160.可选地,上述字段融合模块505,具体用于:
161.针对每一文本子块,将该文本子块中各所述第二关键字段,和从该文本子块对应的待识别文本内容中所提取的第一关键字段,按照预设规则进行融合,得到该文本子块对应的初步抽取结果。
162.可选地,上述文本去重模块506,具体用于:
163.对包含相同关键字段的不同文本子块对应的初步抽取结果进行信息去重,得到所述目标文本的信息抽取结果。
164.本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
165.存储器603,用于存放计算机程序;
166.处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
167.获取待进行信息抽取的目标文本,并对目标文本进行拼接处理,得到待识别文本;
168.采用第一识别方式,分别对待识别文本中的预设关键字段以及标题行进行识别,
得到多个第一关键字段以及多个目标标题行;
169.基于各第一关键字段以及各目标标题行,对待识别文本进行分块,得到多个文本子块;
170.针对每一文本子块,采用第二识别方式提取该文本子块中的预设关键字段,得到第二关键字段;
171.对各文本子块分别对应的第一关键字段和第二关键字段进行融合,得到不同文本子块对应的初步抽取结果;
172.对初步抽取结果进行去重,得到目标文本的信息抽取结果。
173.本发明实施例提供的一种电子设备,可以对目标文本中不同行的文本信息进行拼接处理,以完善文本信息,滤除由于文本篇幅过长造成的缺失换行问题,可以提高文本信息抽取的准确度,以及结合从待识别文本中识别的各第一关键字段和各目标标题行对待识别文本进行分块,使得文本分块更准确,同时去除了文本分块过程中相关字段的噪声影响,降低了文本解析结果的误警率,并对各文本子块分别对应的第一关键字段和第二关键字段进行融合,降低了关键字段缺失的概率,使得得到的不同文本子块对应的初步抽取结果更为准确,进而再对初步抽取结果进行去重,过滤重复的抽取结果,得到针对目标文本更为准确的信息抽取结果。
174.上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
175.通信接口用于上述电子设备与其他设备之间的通信。
176.存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
177.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
178.在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
179.获取待进行信息抽取的目标文本,并对目标文本进行拼接处理,得到待识别文本;
180.采用第一识别方式,分别对待识别文本中的预设关键字段以及标题行进行识别,得到多个第一关键字段以及多个目标标题行;
181.基于各第一关键字段以及各目标标题行,对待识别文本进行分块,得到多个文本子块;
182.针对每一文本子块,采用第二识别方式提取该文本子块中的预设关键字段,得到第二关键字段;
183.对各文本子块分别对应的第一关键字段和第二关键字段进行融合,得到不同文本
子块对应的初步抽取结果;
184.对初步抽取结果进行去重,得到目标文本的信息抽取结果。
185.本发明实施例提供的一种计算机可读存储介质,可以对目标文本中不同行的文本信息进行拼接处理,以完善文本信息,滤除由于文本篇幅过长造成的缺失换行问题,可以提高文本信息抽取的准确度,以及结合从待识别文本中识别的各第一关键字段和各目标标题行对待识别文本进行分块,使得文本分块更准确,同时去除了文本分块过程中相关字段的噪声影响,降低了文本解析结果的误警率,并对各文本子块分别对应的第一关键字段和第二关键字段进行融合,降低了关键字段缺失的概率,使得得到的不同文本子块对应的初步抽取结果更为准确,进而再对初步抽取结果进行去重,过滤重复的抽取结果,得到针对目标文本更为准确的信息抽取结果。
186.在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如下步骤:
187.获取待进行信息抽取的目标文本,并对目标文本进行拼接处理,得到待识别文本;
188.采用第一识别方式,分别对待识别文本中的预设关键字段以及标题行进行识别,得到多个第一关键字段以及多个目标标题行;
189.基于各第一关键字段以及各目标标题行,对待识别文本进行分块,得到多个文本子块;
190.针对每一文本子块,采用第二识别方式提取该文本子块中的预设关键字段,得到第二关键字段;
191.对各文本子块分别对应的第一关键字段和第二关键字段进行融合,得到不同文本子块对应的初步抽取结果;
192.对初步抽取结果进行去重,得到目标文本的信息抽取结果。
193.本发明实施例提供的一种包含指令的计算机程序产品,可以对目标文本中不同行的文本信息进行拼接处理,以完善文本信息,滤除由于文本篇幅过长造成的缺失换行问题,可以提高文本信息抽取的准确度,以及结合从待识别文本中识别的各第一关键字段和各目标标题行对待识别文本进行分块,使得文本分块更准确,同时去除了文本分块过程中相关字段的噪声影响,降低了文本解析结果的误警率,并对各文本子块分别对应的第一关键字段和第二关键字段进行融合,降低了关键字段缺失的概率,使得得到的不同文本子块对应的初步抽取结果更为准确,进而再对初步抽取结果进行去重,过滤重复的抽取结果,得到针对目标文本更为准确的信息抽取结果。
194.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者
是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
195.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
196.本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置/电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
197.以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1